Fri, Aug 02, 2024

Turbine a instalação de pacotes em Python

O que é uv?

uv é um instalador e resolvedor de pacotes Python turbo-rápido, escrito em Rust como um substituto de alta velocidade para pip, pip-tools e virtualenv.

É de 10 a 100 vezes mais rápido que pip e pip-tools: com um cache aquecido, as instalações com uv são quase instantâneas.

Alguns destaques adicionais:

  • Economiza Espaço em Disco: utiliza um cache global para evitar dependências duplicadas.
  • Funciona em Qualquer Lugar: suporta macOS, Linux e Windows.
  • Fácil de Instalar: você não precisa ter Python ou Rust instalados. Pode ser usado com curl, pip ou brew.
  • Recursos Avançados: suporta substituições de versão de dependências e estratégias alternativas de resolução.
  • Melhores Mensagens de Erro: Mensagens de erro de melhor qualidade com um resolvedor de rastreamento de conflitos.
  • pip Avançado: instalações editáveis, dependências git, dependências locais, distribuições de origem.

Por que é rápido:

  • Rust: Rust é conhecido por sua velocidade e segurança.
  • “resolver”: uma maneira inteligente de determinar quais versões dos pacotes podem funcionar juntas.
  • Cache global de módulos: ele lembra dos arquivos que já viu, então não faz download ou reconstrói dependências novamente.
  • Copy-on-Write e hardlinks: isso ajuda a minimizar o uso de espaço em disco.

A visão maior do uv é transformar o gerenciamento de pacotes Python com sua velocidade e confiabilidade. O próximo Poetry?

Se você está no ecossistema Python há tempo suficiente, sabe como é doloroso configurar um ambiente Python ou criar um pacote.

uv tem planos de estabelecer um “Cargo para Python,” um gerenciador unificado de pacotes e projetos Python que seja extremamente rápido, confiável e fácil de usar.

“Imagine: um único binário que inicializa sua instalação do Python e fornece tudo o que você precisa para ser produtivo com Python, integrando não apenas pip, pip-tools e virtualenv, mas também pipx, tox, poetry, pyenv, ruff e mais.

As ferramentas do Python podem proporcionar uma experiência de baixa confiança: é um trabalho significativo iniciar um novo projeto ou dar continuidade a um projeto existente, e os comandos falham de maneiras confusas. Em contraste, ao trabalhar no ecossistema Rust, você confia que as ferramentas funcionarão. A cadeia de ferramentas Astral tem como objetivo transformar a experiência com Python de uma experiência de baixa confiança para uma de alta confiança.”

Estou empolgado para ver o uv melhorar significativamente a experiência de desenvolvimento em Python!

Benchmarks

Vamos ver alguns números de seus benchmarks

instalação a frio (8–10x mais rápido)

Isso equivale a executar uv pip sync em uma nova máquina uv é 8–10x mais rápido que pip e pip-tools sem cache.

instalação com cache (80–115x mais rápido)

É 80–115x mais rápido ao executar com um cache aquecido (por exemplo, recriando um ambiente virtual ou atualizando uma dependência)

Mais sobre esses benchmarks, instalando transformers

Testei o uv no pacote transformers da Hugging Face. A diferença de velocidade é claramente visível.

Como usar?

Abaixo estão alguns comandos que você deve ter em mãos para começar a usar o uv.

Desde a instalação até a sincronização de dependências. Encontre o código no Deepnote. Instalação

# Em macOS e Linux.
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows.
powershell -c "irm https://astral.sh/uv/install.ps1 | iex"

# Com pip.
pip install uv

# Com pipx.
pipx install uv

# com Homebrew.
brew install uv

# Com Pacman.
pacman -S uv

Criando venv

# No macOS e Linux.
source .venv/bin/activate

# Windows.
.venv\Scripts\activate

Instalando pacotes

uv pip install flask               
uv pip install -r requirements.txt

Sincronizando dependências.

uv pip sync requirements.txt  # Install from a requirements.txt file.

Wed, Jul 31, 2024

Virada de jogo com outra nova IA minúscula e poderosa.

O Google acaba de lançar o Gemma 2 2B, um modelo de inteligência artificial compacto, mas poderoso, que rivaliza com os líderes do setor, apesar de seu tamanho significativamente menor. Com apenas 2,6 bilhões de parâmetros, este novo modelo de linguagem demonstra desempenho igual ou superior a equivalentes muito maiores, incluindo o GPT-3.5 da OpenAI e o Mixtral 8x7B da Mistral AI.

Acessibilidade e impacto em IA móvel

Anunciado no Blog de Desenvolvedores do Google, o Gemma 2 2B representa um grande avanço na criação de sistemas de IA mais acessíveis e implantáveis. Seu pequeno tamanho o torna particularmente adequado para aplicativos em dispositivos, potencialmente impactando significativamente a IA móvel e a computação de ponta.

Desempenho de destaque

Testes independentes realizados pela LMSYS, uma organização de pesquisa de IA, mostraram que o Gemma 2 2B alcançou uma pontuação de 1.130 em sua área de avaliação. Este resultado o coloca um pouco à frente do GPT-3.5-Turbo-0613 (1117) e Mixtral-8x7B (1114), modelos com dez vezes mais parâmetros.

As capacidades do modelo vão além da mera eficiência de tamanho. O Google relata que o Gemma 2 2B obteve pontuação de 56,1 no benchmark MMLU (Massive Multitask Language Understanding) e 36,6 no MBPP (Mostly Basic Python Programming), marcando melhorias significativas em relação ao seu antecessor.

Desafiando a sabedoria predominante

Esta conquista desafia a sabedoria predominante no desenvolvimento da IA de que modelos maiores têm um desempenho inerentemente melhor. O sucesso do Gemma 2 2B sugere que técnicas sofisticadas de treinamento, arquiteturas eficientes e conjuntos de dados de alta qualidade podem compensar a contagem bruta de parâmetros. Este avanço pode ter implicações de longo alcance para o campo, potencialmente mudando o foco da corrida por modelos cada vez maiores para o refinamento de modelos menores e mais eficientes.

A arte da compressão de IA

O desenvolvimento do Gemma 2 2B também destaca a crescente importância das técnicas de compressão e destilação de modelos. Ao destilar efetivamente o conhecimento de modelos maiores em modelos menores, os pesquisadores podem criar ferramentas de IA mais acessíveis sem sacrificar o desempenho. Esta abordagem não só reduz os requisitos computacionais, mas também aborda preocupações sobre o impacto ambiental do treinamento e da execução de grandes modelos de IA.

O Google treinou o Gemma 2 2B em um enorme conjunto de dados de 2 trilhões de tokens usando seu hardware avançado TPU v5e. O modelo multilingue aumenta o seu potencial para aplicações globais.

Tendência crescente em IA eficiente

Esta versão está alinhada com uma tendência crescente da indústria em direção a modelos de IA mais eficientes. À medida que aumentam as preocupações sobre o impacto ambiental e a acessibilidade de grandes modelos de linguagem, as empresas tecnológicas estão se concentrando na criação de sistemas menores e mais eficientes que possam funcionar em hardware de consumo.

Revolução do código aberto

Ao tornar o Gemma 2 2B de código aberto, o Google reafirma seu compromisso com a transparência e o desenvolvimento colaborativo em IA. Pesquisadores e desenvolvedores podem acessar o modelo por meio do Hugging Face via Gradio, com implementações disponíveis para vários frameworks, incluindo PyTorch e TensorFlow.

Embora o impacto a longo prazo deste lançamento ainda não seja conhecido, o Gemma 2 2B representa claramente um passo significativo para a democratização da tecnologia de IA. À medida que as empresas continuam a ultrapassar os limites das capacidades dos modelos menores, podemos estar entrando numa nova era de desenvolvimento de IA – uma era em que capacidades avançadas não são mais exclusivas dos supercomputadores com uso intensivo de recursos.

Thu, Jul 25, 2024

Mistral Large 2: Outra super nova IA!


Mistral AI lançou o Mistral Large 2, a versão mais recente do seu principal modelo de linguagem, que apresenta melhorias significativas na geração de código, matemática e capacidades multilíngues. O novo modelo, com 123 bilhões de parâmetros, possui uma janela de contexto de 128.000 tokens e visa desafiar os líderes do setor em desempenho e eficiência.

O Mistral Large 2 mostra desempenho impressionante em vários benchmarks. Em tarefas de geração de código, como HumanEval e MultiPL-E, ele supera o Llama 3.1 405B (lançado ontem pela Meta) e fica apenas abaixo do GPT-4. Em matemática, particularmente no benchmark MATH (resolução de problemas sem raciocínio em cadeia), o Mistral Large 2 é segundo apenas para o GPT-4o.

As capacidades multilíngues do modelo também receberam um impulso substancial. No benchmark multilíngue MMLU, Mistral Large 2 supera o Llama 3.1 70B base em média por 6,3% em nove idiomas e tem desempenho equiparável ao Llama 3 405B.

Apesar do seu grande tamanho, a Mistral AI projetou o modelo para inferência em um único nó, enfatizando a capacidade de processamento para aplicações de longo contexto. A empresa disponibilizou o Mistral Large 2 em sua plataforma, la Plateforme, e lançou os pesos para o modelo instrutivo no HuggingFace para fins de pesquisa.

Arthur Mensch, CEO da Mistral AI, afirmou: “O Mistral Large 2 estabelece uma nova fronteira em termos de relação desempenho-custo em métricas de avaliação.” Ele destacou que a versão pré-treinada alcança uma precisão de 84,0% no MMLU, estabelecendo um novo ponto na frente de Pareto desempenho/custo para modelos abertos.

O modelo passou por um treinamento extensivo em código-fonte, aproveitando a experiência da Mistral AI com modelos anteriores focados em código. Esse enfoque resultou em um desempenho comparável ao de modelos líderes como GPT-4, Claude 3 Opus e Llama 3 405B em tarefas de codificação.

A Mistral AI também se concentrou em aprimorar as capacidades de raciocínio do modelo e reduzir as alucinações. A empresa relata um desempenho aprimorado em benchmarks matemáticos, refletindo esses esforços.

Além disso, o Mistral Large 2 foi treinado para se destacar em tarefas de seguimento de instruções e conversação, com melhorias particulares no manejo de instruções precisas e conversas longas e multi-turnos.

O lançamento do Mistral Large 2 logo após o Llama 3.1 sinaliza uma competição intensificada no espaço dos modelos de linguagem de IA. Seu desempenho em áreas especializadas como geração de código e matemática, juntamente com um forte suporte multilíngue, posiciona-o como uma opção formidável tanto para pesquisa quanto para aplicações comerciais potenciais.

À medida que os modelos de IA continuam a crescer em tamanho e capacidade, o foco da Mistral AI em eficiência e inferência em um único nó destaca uma tendência importante no equilíbrio entre desempenho e considerações práticas de implantação.

Tue, Jul 23, 2024

Mistral NeMo: Mais uma IA!

Hoje, vamos dar uma olhada em um novo competidor que está causando impacto: o Nemo da Mistral AI. Este poderoso modelo de 12 bilhões de parâmetros está chamando a atenção com suas capacidades impressionantes e seu potencial para revolucionar a interação com a IA.

O Nemo não é apenas um rosto bonito no mundo dos LLMs. Ele é construído com uma combinação única de características que o destacam:

  • Arquitetura de ponta: O Nemo possui habilidades impressionantes de raciocínio, conhecimento mundial e habilidades de codificação, especialmente considerando seu tamanho.
  • Colaboração com a Nvidia: Esta parceria resultou em um modelo que se destaca na inferência eficiente, mesmo com quantização, permitindo uma operação mais rápida e suave.
  • Versatilidade linguística: O Nemo fala fluentemente várias línguas, suportando diversos idiomas com facilidade.
  • Tokenizador avançado: Conheça o Tekken, o tokenizador eficiente que ajuda o Nemo a comprimir textos de forma mais eficaz, especialmente para codificação.
  • Ajuste fino de instruções: Este modelo é especialista em seguir instruções precisas, lidando com conversas complexas e gerando códigos de alta qualidade.

Benchmarks: O desempenho do Nemo em vários benchmarks mostra um quadro promissor:

• HellaSwag: O Nemo marca 83,5, superando o Llama 3 e o Gemma 2.
• Winograd Schema Challenge: O Nemo alcança uma pontuação de 76,8.
• NaturalQuestions: O Nemo marca 31,2.
• TriviaQA: O Nemo obtém respeitáveis 73,8.
• MMLU: O Nemo marca 68.
• OpenBookQA: O Nemo marca 60,6.
• CommonSenseQA: O Nemo marca 70,4.
• TruthfulQA: O Nemo marca 50,3.

Embora esses benchmarks sejam impressionantes, é importante notar que faltam comparações com modelos líderes como Quen 2 e DeepSeek V2.

Vamos direto ao ponto: Como o Nemo realmente se sai? Os benchmarks mostram resultados seriamente impressionantes:
• Superando a concorrência: O Nemo supera seus rivais como Llama 3 e Gemma 2 em vários métricos, demonstrando suas capacidades impressionantes.
• Potência de raciocínio: Ele constantemente se sai bem em tarefas de raciocínio, provando sua habilidade de pensar criticamente e resolver problemas.
• Campeão na geração de código: O Nemo se destaca na geração de código, até mesmo gerando código funcional para tarefas complexas como um jogo da cobrinha em Python.

O futuro do Nemo é brilhante. Ele ainda está em seus estágios iniciais, mas com o desenvolvimento contínuo e as contribuições da comunidade, tem o potencial de se tornar um dos modelos de linguagem de IA mais influentes do mundo.

Sun, Jul 21, 2024

Corrigindo o Windows do incidente Crowdstrike

Embora eu não uso Windows desde 1998, compartilho aqui as instruções para recuperar as máquinas afetadas pela atualização do Crowdstrike:

Entre no modo de segurança reiniciando o computador com a tecla SHIFT pressionada. Em seguida, após o boot, selecione a opção SOLUCIONAR PROBLEMAS “Troubleshoot”

Na tela seguinte, clique em opções avançadas, depois selecione Ativar Modo de Segurança localizado na opção configurações de inicialização. E então reinicie o computador.

Ao concluir a inicialização, agora no modo de segurança, clique com o botão direito em Iniciar, clique em Executar, digite cmd e clique em OK.

A com o terminal do Windows aberto entre na pasta CrowdStrike conforme o comando abaixo:

CD C:\Windows\System32\drivers\CrowdStrike

Agora apaguei todos os arquivos “C-00000291*.sys” seguindo a sintaxe a seguir:

del C-00000291*.sys

Pronto, agora basta reiniciar o computador.

Tue, Jul 16, 2024

MathΣtral : IA para raciocínio Matemático.

A Mistral AI apresentou o MathΣtral, um modelo especializado de 7B projetado para raciocínio matemático avançado e exploração científica. Lançado sob a licença Apache 2.0, o MathΣtral homenageia Arquimedes por ocasião do seu aniversário de 2311 anos este ano.

O MathΣtral é adaptado para enfrentar desafios complexos de raciocínio lógico em múltiplas etapas nas áreas de STEM. Desenvolvido em colaboração com o Projeto Numina, o modelo herda capacidades do Mistral 7B, alcançando desempenho de ponta em benchmarks padrão da indústria. Notavelmente, ele atinge 56,6% no MATH e 63,47% no MMLU, demonstrando capacidades de raciocínio superiores dentro de sua categoria de tamanho.

Benchmarks detalhados destacam as robustas melhorias de desempenho do MathΣtral com aumento do cálculo no tempo de inferência. Por exemplo, o MathΣtral 7B alcança melhorias significativas de precisão, com 68,37% no MATH através de votação majoritária e 74,59% com um modelo de recompensa forte entre 64 candidatos.

O MathΣtral está disponível para uso e adaptação imediatos usando as ferramentas da Mistral AI. Os desenvolvedores podem implantar o modelo através do mistral-inference para exploração inicial e aprimorar suas capacidades com o mistral-finetune. Os pesos do modelo são acessíveis via HuggingFace, facilitando a integração direta em projetos acadêmicos e de pesquisa.

Ao disponibilizar o MathΣtral para a comunidade científica, a Mistral AI visa promover avanços na resolução de problemas matemáticos e apoiar empreendimentos acadêmicos. Esta iniciativa destaca o compromisso da Mistral AI em promover arquiteturas de modelos especializados e suas aplicações práticas na descoberta científica.

Fonte: https://mistral.ai/news/mathstral/

Sun, Jun 30, 2024

Projeto de Lei 2338/23 impactará o futuro dos nossos filhos e netos.

O Projeto de Lei 2338/23 é de fundamental importância para o Brasil e futuro dos nossos filhos e netos, podendo beneficiar o país se implementado com maestria. No entanto, observo que a preparação necessária para isso não está sendo feita de forma adequada. Como membro ativo do Conselho Consultivo da ABRIA, membro Notável da i2Ai, e como Intel Innovator, entre outras posições, sinto-me compelido a não permanecer passivo diante desta situação. O Brasil possui grande potencial e continuarei a defender o patriotismo e a soberania nacional em face desses desafios.

A Associação Brasileira de Inteligência Artificial (ABRIA) congregou 25 organizações, que variam entre empresas, associações e entidades de classe, para assinar uma Carta Aberta à Sociedade e aos Legisladores. Esta carta destaca preocupações com o PL 2338/23, que visa regular a inteligência artificial no Brasil, e apela por mais tempo para debates e discussões. Com a promessa de mais cinco audiências públicas, nossa associação está pronta para contribuir ativamente para fomentar o desenvolvimento industrial e assegurar a proteção dos usuários, conforme detalhado aqui blog Assunto Nerd.

A tramitação apressada do PL 2.338/2023, discutida predominantemente por juristas e com pouca participação da comunidade técnica e científica especializada em IA, tem limitado a abrangência do debate, um elemento crucial para a criação de uma legislação eficaz e apropriada ao ambiente tecnológico. Esta pressa pode resultar em uma legislação que não só falha em atender às necessidades da sociedade, mas também se mostra impraticável para startups e pequenas e médias empresas, gerando um ambiente regulatório complexo e custoso.

Sat, Jun 29, 2024

Google lança Gemma 2, sua próxima geração de modelos abertos


A inteligência artificial (IA) possui o potencial de solucionar grandes desafios globais, mas isso só será possível se as ferramentas necessárias estiverem ao alcance de todos. A família Gemma foi expandida com adições como CodeGemma, RecurrentGemma e PaliGemma, cada um com características únicas para diferentes aplicações de IA, e disponíveis através de parcerias com entidades como Hugging Face, NVIDIA e Ollama.

Agora foi lançado oficialmente o Gemma 2 para pesquisadores e desenvolvedores em todo o mundo. Disponível em tamanhos de parâmetros de 9 bilhões (9B) e 27 bilhões (27B), o Gemma 2 tem desempenho superior e é mais eficiente na inferência do que a primeira geração, com avanços de segurança significativos incorporados. para modelos com mais do que o dobro do seu tamanho, proporcionando o tipo de desempenho que só era possível com modelos proprietários até dezembro. E isso agora é possível em uma única GPU NVIDIA H100 Tensor Core ou host TPU, reduzindo significativamente os custos de implantação.

Um novo padrão de modelo aberto para eficiência e desempenho

Foi Construido o Gemma 2 em uma arquitetura redesenhada, projetada para oferecer desempenho excepcional e eficiência de inferência. Aqui está o que o destaca:

Inferência extremamente rápida em hardware: o Gemma 2 é otimizado para funcionar a uma velocidade incrível em uma variedade de hardware, desde poderosos laptops para jogos e desktops de última geração até configurações baseadas em nuvem. Experimente Gemma 2 com total precisão no Google AI Studio , desbloqueie o desempenho local com a versão quantizada com Gemma.cpp em sua CPU ou experimente em seu computador doméstico com NVIDIA RTX ou GeForce RTX por meio de Hugging Face Transformers.

Desempenho extraordinário: com 27B, o Gemma 2 oferece o melhor desempenho para sua classe de tamanho e ainda oferece alternativas competitivas para modelos com mais que o dobro do seu tamanho. O modelo 9B Gemma 2 também oferece desempenho líder na categoria, superando o Llama 3 8B e outros modelos abertos em sua categoria de tamanho. Para análises detalhadas de desempenho, confira o relatório técnico .

Eficiência e economia de custos incomparáveis: o modelo 27B Gemma 2 foi projetado para executar inferências com eficiência e precisão total em um único host Google Cloud TPU, GPU NVIDIA A100 80GB Tensor Core ou GPU NVIDIA H100 Tensor Core , reduzindo significativamente os custos e mantendo o alto desempenho. Isso permite implantações de IA mais acessíveis e econômicas.

Construído para desenvolvedores e pesquisadores

O Gemma 2 não é apenas mais poderoso, ele foi projetado para ser integrado mais facilmente aos seus fluxos de trabalho:

  • Aberto e acessível: Assim como os modelos Gemma originais, o Gemma 2 está disponível sob nossa licença Gemma comercialmente amigável , dando aos desenvolvedores e pesquisadores a capacidade de compartilhar e comercializar suas inovações.
  • Ampla compatibilidade de estrutura: use facilmente o Gemma 2 com suas ferramentas e fluxos de trabalho preferidos, graças à sua compatibilidade com as principais estruturas de IA, como Hugging Face Transformers, e JAX, PyTorch e TensorFlow por meio de Keras 3.0 nativo, vLLM, Gemma.cpp , Llama.cpp e Ollama . Além disso, o Gemma é otimizado com NVIDIA TensorRT-LLM para rodar em infraestrutura acelerada pela NVIDIA ou como um microsserviço de inferência NVIDIA NIM , com otimização para o futuro NeMo da NVIDIA . Você pode fazer o ajuste fino hoje com Keras e Hugging Face. Estamos trabalhando ativamente para permitir opções adicionais de ajuste fino com eficiência de parâmetros.1
  • Implantação sem esforço: a partir do próximo mês, os clientes do Google Cloud poderão implantar e gerenciar facilmente o Gemma 2 no Vertex AI .

Explore o novo Gemma Cookbook , uma coleção de exemplos práticos e receitas para guiá-lo na construção de seus próprios aplicativos e no ajuste fino de modelos Gemma 2 para tarefas específicas. Descubra como usar facilmente o Gemma com as ferramentas de sua preferência, inclusive para tarefas comuns, como geração de recuperação aumentada.

Desenvolvimento responsável de IA

A Google tem o compromisso de fornecer aos desenvolvedores e pesquisadores os recursos necessários para criar e implantar IA de maneira responsável, inclusive por meio de nosso kit de ferramentas de IA generativa responsável . O LLM Comparator, de código aberto recentemente, ajuda desenvolvedores e pesquisadores na avaliação aprofundada de modelos de linguagem. A partir de hoje, você pode usar a biblioteca Python complementar para executar avaliações comparativas com seu modelo e dados e visualizar os resultados no aplicativo. Além disso, estamos trabalhando ativamente para abrir o código-fonte de nossa tecnologia de marca d’água de texto, SynthID , para modelos Gemma.

Ao treinar o Gemma 2, seguimos nossos robustos processos internos de segurança, filtrando dados de pré-treinamento e realizando testes e avaliações rigorosos em relação a um conjunto abrangente de métricas para identificar e mitigar possíveis preconceitos e riscos. Publicamos nossos resultados em um grande conjunto de benchmarks públicos relacionados à segurança e danos representacionais.

O modelo também é otimizado para operar eficientemente em uma variedade de hardware, reduzindo o tempo e o custo de implementação. Esta otimização ajuda a tornar tecnologias de ponta mais acessíveis e práticas para desenvolvedores em todo o mundo. Para mais informações, você pode acessar o blog do Google.

Fri, Jun 28, 2024

Lançado openVINO 2024.2

Em 18 de junho, foi lançado a versáo 2024.2 do OpenVINO, um kit de ferramentas de código aberto para otimizar e implantar modelos de aprendizagem profunda da nuvem até a borda. Ele acelera a inferência de aprendizado profundo em vários casos de uso, como IA generativa, vídeo, áudio e linguagem com modelos de estruturas populares como PyTorch, TensorFlow, ONNX e muito mais. Converta e otimize modelos e implante em uma combinação de hardware e ambientes Intel®, no local e no dispositivo, no navegador ou na nuvem.

Abaixo as principais mudanças.

Maior cobertura nas tecnologias de IA de última geração e integrações de frameworks para minimizar mudanças de código:

  • Otimizações Llama 3 para CPUs, GPUs integradas e GPUs discretas para melhor desempenho e uso eficiente de memória.
  • Suporte para Phi-3-mini, uma família de modelos de IA que aproveita o poder de modelos de linguagem pequenos para processamento de texto mais rápido, preciso e econômico.
  • Operação Personalizada Python agora habilitada no OpenVINO, facilitando para desenvolvedores Python programarem suas operações personalizadas em vez de operações personalizadas em C++ (também suportadas). A Operação Personalizada Python permite aos usuários implementar suas próprias operações especializadas em qualquer modelo.
  • Expansão de notebooks para garantir melhor cobertura para novos modelos. Notebooks notáveis adicionados: DynamiCrafter, YOLOv10, notebook de Chatbot com Phi-3 e QWEN2.

Maior suporte a Modelos de Linguagem de Grande Escala (LLM) e mais técnicas de compressão de modelos:

  • Método GPTQ para compressão de pesos de 4 bits adicionado ao NNCF para inferência mais eficiente e desempenho melhorado de LLMs comprimidos.
  • Melhorias significativas no desempenho de LLM e redução de latência para GPUs integradas e discretas.
  • Melhoria significativa na latência do segundo token e na pegada de memória de LLMs com pesos FP16 em plataformas de CPU baseadas em AVX2 (processadores Intel® Core™ de 13ª Geração) e AVX512 (Processadores Escaláveis Intel® Xeon® de 3ª Geração), especialmente para tamanhos de lotes pequenos.

Maior portabilidade e desempenho para executar IA na borda, na nuvem ou localmente:

  • Aprimoramentos no Serviço de Modelos:
    • Prévia: OpenVINO Model Server (OVMS) agora suporta API compatível com OpenAI juntamente com Batching Contínuo e PagedAttention, permitindo throughput significativamente maior para inferência paralela, especialmente em processadores Intel® Xeon®, ao servir LLMs para muitos usuários simultâneos.
    • Backend OpenVINO para Triton Server agora suporta GPUs integradas e discretas, além de suporte a formas dinâmicas.
    • Integração do TorchServe através do backend OpenVINO torch.compile para fácil implantação de modelos, provisionamento para múltiplas instâncias, versionamento de modelos e manutenção.
  • Prévia: adição da API Generate, uma API simplificada para geração de texto usando modelos de linguagem de grande escala com apenas algumas linhas de código. A API está disponível através do novo pacote OpenVINO GenAI.
  • Suporte para Processador Intel Atom® Série X. Para mais detalhes, veja Requisitos do Sistema.
  • Prévia: Suporte para processador Intel® Xeon® 6.

Mais informações aqui: https://github.com/openvinotoolkit/openvino/releases/tag/2024.2.0

Mon, Jun 24, 2024

IA rodando em computador antigo de R$ 600,00

O governo recentemente declarou que a Inteligência Artificial (IA) não está ao alcance de todos, uma afirmação que reflete a obsolescência programada no mercado de tecnologia. No entanto, estou comprometido em assegurar que essa visão não se torne uma realidade, especialmente ao abordar o desafio contínuo da exclusão digital. Uma das principais barreiras é a obsolescência programada, que frequentemente restringe o uso de tecnologias modernas em computadores mais antigos. Assim, estou dedicando esforços para desenvolver soluções que contrariem essa tendência, permitindo que mais pessoas tenham acesso a ferramentas tecnológicas atualizadas sem a necessidade de equipamentos de última geração.

Na prática, isso se traduziu no desenvolvimento da imagem JAX Linux, que foi especialmente otimizada para melhorar o desempenho em máquinas mais antigas e novas. Utilizando técnicas avançadas como a extensão de vetorização, conseguimos fazer com que modelos de IA avançados, como o Mistral 7B, funcionem eficientemente em um computador i5 de 2016 com apenas 8GB de RAM e sem uma GPU de alta performance. Esse tipo de otimização é crucial para democratizar o acesso à IA, permitindo que mesmo hardware com especificações modestas possa executar tarefas computacionais intensivas sem comprometer significativamente a performance.

Os resultados desse projeto são notavelmente promissores, com testes mostrando que o uso máximo de recursos de hardware não ultrapassou 60%. Isso demonstra que é perfeitamente viável levar a inteligência artificial para indivíduos com recursos financeiros limitados. Essa conquista não apenas desafia a norma atual que associa a inovação em IA com equipamentos de ponta, mas também reforça o compromisso de tornar a tecnologia acessível para todos, independentemente de suas condições econômicas. Através desses esforços, estamos um passo mais perto de uma verdadeira democratização da inteligência artificial.