Skip to main content

the avatar of Alessandro de Oliveira Faria

Molmo: O futuro das IAs que enxergam.

O Allen Institute for Artificial Intelligence (Ai2) está lançando uma nova família de modelos de linguagem multimodais de código aberto, chamada Molmo, que rivaliza com modelos da OpenAI, Google e Anthropic. O maior modelo Molmo possui 72 bilhões de parâmetros e supera o GPT-4 da OpenAI em testes de compreensão de imagens e documentos, enquanto um modelo menor de 7 bilhões de parâmetros se aproxima do desempenho do modelo mais avançado da OpenAI, graças a métodos eficientes de treinamento de dados.

Segundo Ali Farhadi, CEO do Ai2, o desenvolvimento de IA de código aberto está agora em par com modelos proprietários, oferecendo a vantagem de ser acessível para outros desenvolvedores construírem aplicações. Uma demonstração do Molmo estará disponível em breve no site Hugging Face, embora alguns elementos do modelo maior ainda sejam restritos ao público.

Contrastando com outros modelos treinados em conjuntos de dados massivos e indiscriminados, o Molmo utiliza um conjunto menor e mais selecionado de 600.000 imagens, resultando em melhor desempenho com menos recursos. Anotadores humanos detalharam imagens em texto, convertidas depois em dados através de técnicas de IA, otimizando o treinamento e reduzindo a necessidade de potência computacional. Essa abordagem focada em qualidade, segundo Percy Liang, do Stanford Center for Research on Foundation Models, pode diminuir os custos computacionais e, segundo Yacine Jernite da Hugging Face, pode ajudar a controlar melhor os dados utilizados em IA.

Além disso, o modelo Molmo demonstrou capacidade de “apontar” elementos específicos em imagens, uma função útil para interações mais sofisticadas com interfaces de usuário, o que Ali Farhadi enfatiza como uma vantagem sobre modelos que apenas descrevem imagens. Com a promessa de maior eficiência e potencial para aplicações futuras, o Ai2 espera que o Molmo influencie o campo da IA de código aberto e seja uma base para inovações futuras.

https://arxiv.org/pdf/2409.17146

the avatar of Alessandro de Oliveira Faria

OpenVINO 2024.4.0

A baixo as principais novidades da versão 2024.4.0 da tecnologia openVINO.
Mais cobertura para Gen AI e integrações de frameworks para minimizar alterações de código

  • Suporte para os modelos GLM-4-9B Chat, MiniCPM-1B, Llama 3 e 3.1, Phi-3-Mini, Phi-3-Medium e YOLOX-s.
  • Notebooks de destaque adicionados: Florence-2, Extração de Estrutura NuExtract-tiny, Geração de Imagens Flux.1, PixArt-α: Síntese de Texto para Imagem Fotorrealista, e Phi-3-Vision Assistente Visual de Linguagem.

Maior suporte para modelos LLM e mais técnicas de compressão de modelos

  • OpenVINO™ Runtime otimizado para as matrizes sistólicas Intel® Xe Matrix Extensions (Intel® XMX) em GPUs integradas, proporcionando uma multiplicação de matrizes eficiente, resultando em um aumento significativo de desempenho em LLM com melhorias na latência do 1º e 2º tokens, além de uma menor utilização de memória nos processadores Intel® Core™ Ultra (Série 2).
  • Compartilhamento de memória habilitado para NPUs em processadores Intel® Core™ Ultra (Série 2) para integração de pipelines eficiente, sem sobrecarga de cópia de memória.
  • Adição do recurso PagedAttention para GPUs discretas, permitindo um aumento significativo no throughput para inferência paralela ao servir LLMs nas placas gráficas Intel® Arc™ ou Intel® Data Center GPU Flex Series.

Mais portabilidade e desempenho para executar IA na borda, na nuvem ou localmente

  • Suporte para processadores Intel® Core Ultra Série 2 no Windows.
  • O OpenVINO™ Model Server agora vem com suporte em nível de produção para API compatível com OpenAI, o que possibilita uma taxa de transferência significativamente maior para inferência paralela em processadores Intel® Xeon® ao servir LLMs para muitos usuários simultâneos.
  • Desempenho e consumo de memória aprimorados com cache de prefixo, compressão de cache KV e outras otimizações para servir LLMs usando o OpenVINO™ Model Server.
  • Suporte para Python 3.12.
  • Suporte para Red Hat* Enterprise Linux* (RHEL) versões 9.3 – 9.4.

Baixar a versão 2024.4
Baixe agora a última versão.

the avatar of Alessandro de Oliveira Faria

Llama 3.2 : compacta e local para dispositivos móveis com visão computacional avançada.

A Meta anunciou, durante o evento Meta Connect 2024, o lançamento do Llama 3.2, uma atualização dos seus modelos de inteligência artificial (IA) focada em dispositivos móveis e edge computing. Com uma abordagem aberta, essa nova versão oferece modelos compactos que podem ser executados diretamente em hardwares como Qualcomm, MediaTek e processadores Arm, proporcionando maior privacidade e eficiência para desenvolvedores.

O Llama 3.2 é composto por dois tipos principais de modelos: os de visão (11B e 90B) e os modelos de texto compactos (1B e 3B). Os modelos de visão foram criados para analisar imagens, gráficos e mapas, oferecendo uma interpretação visual dos dados e fornecendo respostas contextuais. Eles apresentam uma alternativa aberta a soluções proprietárias, como o Claude 3 Haiku, sendo ideais para tarefas como reconhecimento de imagens e geração automática de legendas.

Os modelos de texto, por sua vez, são otimizados para rodar localmente em dispositivos móveis. Com suporte para até 128 mil tokens, eles são indicados para funções como sumarização de mensagens, reescrita de textos e execução de comandos por instrução, tudo sem necessidade de conexão à nuvem, garantindo assim maior privacidade, já que os dados permanecem no próprio dispositivo.

Integração com plataformas parceiras

Além do lançamento do Llama 3.2, a Meta introduziu a primeira distribuição oficial do Llama Stack, um conjunto de ferramentas que simplifica o uso e a personalização dos modelos Llama em diferentes ambientes, sejam eles na nuvem, locais ou em dispositivos móveis. Em parceria com empresas como AWS, Databricks, Dell Technologies e Infosys, a Meta busca ampliar as aplicações comerciais e empresariais do Llama 3.2.

O Llama 3.2 também possui suporte imediato para plataformas como Microsoft Azure, Google Cloud, NVIDIA, Oracle Cloud e Intel, além de empresas de tecnologia de ponta que integram a solução diretamente em seus produtos.

Desempenho dos modelos

  • Os modelos de visão do Llama 3.2 competem fortemente com outros grandes modelos, como Claude 3 Haiku e GPT4o-mini, em tarefas de reconhecimento e compreensão visual de imagens.
  • O modelo de texto 3B superou concorrentes como o Gemma 2 (2.6B) e o Phi 3.5-mini em tarefas como seguir instruções, sumarização e reescrita de prompts, além de execução de comandos.
  • O modelo de texto 1B mostrou-se competitivo com o Gemma em diversos benchmarks.

Esses resultados foram obtidos através de mais de 150 conjuntos de dados de benchmarks em várias línguas, com foco nas capacidades de compreensão visual e raciocínio dos modelos de visão LLMs.

Os modelos do Llama 3.2 já estão disponíveis para download no site oficial da Meta e no Hugging Face, com integração pronta para as plataformas dos parceiros. A Meta reforça que sua abordagem aberta é essencial para estimular a inovação, dando a desenvolvedores ao redor do mundo acesso a ferramentas poderosas e acessíveis para criar novas soluções com IA.

the avatar of Alessandro de Oliveira Faria

IA consome 1,4 litro de água e aumenta a conta dos vizinhos.

Usar o GPT-4 para gerar 100 palavras pode consumir até três garrafas de água de 500 ml — o que tem levantado preocupações sobre o impacto ambiental dos data centers de inteligência artificial (IA). Esses centros, responsáveis por processar grandes volumes de dados, exigem uma quantidade significativa de água para resfriar os servidores, além de aumentar consideravelmente o consumo de energia. Isso resulta em contas mais altas de água e energia para os moradores das áreas próximas a essas instalações.

Pesquisas da Universidade da Califórnia, Riverside, revelaram que a quantidade de água utilizada por IA como o GPT-4 varia dependendo da localização do data center. No Texas, por exemplo, são necessários cerca de 235 ml de água para gerar um e-mail de 100 palavras, enquanto no estado de Washington esse número chega a 1.408 ml, equivalente a três garrafas de 500 ml. Esse consumo, embora pareça pequeno em uma escala individual, se multiplica rapidamente com o uso frequente.

Além do consumo de água, o impacto energético também é alarmante. Estimativas indicam que, se 10% dos trabalhadores dos Estados Unidos usarem o GPT-4 uma vez por semana durante um ano, a demanda de energia seria equivalente à consumida por todas as residências de Washington D.C. por 20 dias. Isso mostra que, mesmo com um uso considerado moderado, a IA pode ter um efeito significativo nas redes elétricas.

Representantes de empresas como OpenAI, Meta, Google e Microsoft afirmaram estar comprometidos com a redução desse impacto ambiental. No entanto, até o momento, as medidas propostas, como o uso de sistemas de resfriamento que eliminem o consumo de água, ainda são vagas e sem um cronograma claro de implementação. A pressão por lucros tem, muitas vezes, superado as promessas de sustentabilidade dessas gigantes tecnológicas.

Fonte: https://www.tomshardware.com/tech-industry/artificial-intelligence/using-gpt-4-to-generate-100-words-consumes-up-to-3-bottles-of-water-ai-data-centers-also-raise-power-and-water-bills-for-nearby-residents

the avatar of Alessandro de Oliveira Faria

Feliz dia do Desenvolvedor !

O Dia do Programador é  o 256º dia do ano, celebrada por programadores de computador em boa parte do mundo. Este número foi escolhido porque é o maior número que pode ser representado por um byte (oito bits). Além disso, esse número é a maior potência de dois , como também inferior ao número 365 (o número de dias do ano). Também pode ser representado, em hexadecimal como 0x100 e em octal como 0400.

Dia do Programador é dia 13 de setembro, exceto em anos bissextos, nos quais ele é comemorado no dia 12 de setembro, pois esse é o 256º dia do ano bissexto.

the avatar of Alessandro de Oliveira Faria

Mistral lança Pixtral, seu primeiro modelo multimodal

A startup francesa de inteligência artificial Mistral lançou seu primeiro modelo capaz de processar imagens e texto.

Denominado Pixtral 12B, o modelo de 12 bilhões de parâmetros tem aproximadamente 24GB de tamanho. Os parâmetros correspondem, aproximadamente, às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente apresentam melhor desempenho que aqueles com menos parâmetros.

Construído a partir de um dos modelos de texto da Mistral, o Nemo 12B, o novo modelo pode responder perguntas sobre um número arbitrário de imagens de tamanho arbitrário fornecidas por URLs ou imagens codificadas usando base64, o esquema de codificação de binário para texto. Similar a outros modelos multimodais, como a família Claude da Anthropic e o GPT-4o da OpenAI, o Pixtral 12B deveria — ao menos em teoria — ser capaz de realizar tarefas como legendagem de imagens e contagem do número de objetos em uma foto.

Disponível por meio de um link torrent no GitHub e na plataforma de desenvolvimento de IA e machine learning Hugging Face, o Pixtral 12B pode ser baixado, ajustado e usado presumivelmente sob a licença de desenvolvimento padrão da Mistral, que exige uma licença paga para aplicações comerciais, mas não para usos acadêmicos e de pesquisa.

A Mistral não esclareceu exatamente qual licença se aplica ao Pixtral 12B. A startup oferece alguns modelos sob uma licença Apache 2.0 sem restrições. Entramos em contato com a Mistral para mais informações e atualizaremos esta postagem caso tenhamos retorno.

Infelizmente, este escritor não conseguiu testar o Pixtral 12B — não havia demos web funcionando no momento da publicação. Em uma postagem no X, Sophia Yang, chefe de relações com desenvolvedores da Mistral, disse que o Pixtral 12B estará disponível para testes nas plataformas de chatbot e de serviço de API da Mistral, Le Chat e Le Platforme, em breve.

Não está claro quais dados de imagem a Mistral pode ter usado para desenvolver o Pixtral 12B.

A maioria dos modelos de IA generativa, incluindo outros modelos da Mistral, é treinada com vastas quantidades de dados públicos da web, que muitas vezes são protegidos por direitos autorais. Alguns fornecedores de modelos argumentam que os direitos de “uso justo” os autorizam a raspar qualquer dado público, mas muitos detentores de direitos autorais discordam e entraram com processos contra fornecedores maiores como OpenAI e Midjourney para interromper a prática.

O Pixtral 12B chega após a Mistral fechar uma rodada de financiamento de $645 milhões liderada pela General Catalyst, que avaliou a empresa em $6 bilhões. Com pouco mais de um ano, a Mistral — com participação minoritária da Microsoft — é vista por muitos na comunidade de IA como a resposta da Europa à OpenAI. A estratégia da empresa mais jovem até agora envolveu o lançamento de modelos “abertos” gratuitos, cobrança por versões gerenciadas desses modelos e fornecimento de serviços de consultoria para clientes corporativos.

the avatar of Alessandro de Oliveira Faria

Descoberta a solução para eliminar erros da IA

Texto originalmente traduzido do https://medium.com.
Fonte:https://blog.cubed.run/100-accurate-ai-claimed-by-acurai-openai-and-anthropic-confirm-acurais-discoveries-98fce1ddeb5b

As notícias impressionantes da Acurai de ter descoberto como os LLMs (Modelos de Linguagem de Grande Escala) operam agora são confirmadas por estudos conduzidos pela OpenAI e Anthropic.

Em março de 2024, esta autora publicou “Elimine as Alucinações dos Chatbots — ISTO MESMO!, Elimine-as”. Este artigo fez a audaciosa afirmação de que os LLMs se auto-organizam em torno de Frases Nominais; e que o comportamento dos LLMs pode ser controlado através da manipulação de Frases Nominais. Estudos recentes da Anthropic e da OpenAI agora confirmam empiricamente essas verdades. Esta é uma notícia FANTÁSTICA! Afinal, essas verdades são a base para eliminar as alucinações — sim, eliminá-las.

Modelo de Dominância de Frases Nominais

Em março de 2024, foi apresentado a seguinte a descoberta revolucionária do “Modelo de Dominância de Frases Nominais”: https://www.michaelcalvinwood.net/docs/Relevant-and-Accurate-AI–Public.pdf

This present inventor’s Noun-Phrase Collision Model led to the development of the higher-level Noun-Phrase Dominance Model — the model that is the key to using LLM token prediction to consistently generate factually accurate output. The Noun-Phrase Dominance Model is perhaps best understood from the perspective of another type of neural network — CNNs (Convolutional Neural Networks).

CNNs are often used for image identification. For example, CNNs can be trained to distinguish images of people, pets, boats, etc. CNNs consist of multiple layers of neurons. Remarkable, during training, these layers self-organize themselves. For example, the early layers self-organize around detecting simple patterns such as edges and textures. The latter layers selforganize by combining the information from earlier layers into more complex patterns like shapes — shapes including the recognition of eyes, ears, legs, steering wheels, etc.

No one tells the CNN to do this. Even though CNNs are merely a collection of neurons with probabilistic weights and biases, CNNs automatically self-organize in this manner in order to fulfill the training objective. While much is discussed in the literature regarding the selforganizing nature of CNN neural networks, little if anything is discussed regarding the selforganizing nature of Transformer Neural Networks — the type of neural network used to construct the most popular Large Language Models such as ChatGPT.

This present inventor’s Noun-Phrase Dominance Model states that neural networks self organize around noun phrases during the training of Large Language Models.

emphasiS

O artigo discute então o controle do comportamento do LLM (por exemplo, garantindo respostas 100% precisas) por meio da manipulação de frases nominais enviadas na consulta e passagens em chatbots baseados em RAG.

Estudos da Anthropic e da OpenAI agora confirmam o modelo de dominância de sintagma nominal. LLMs são construídos a partir de múltiplas camadas. Em outras palavras, a entrada (prompt) passa por muitas camadas para gerar a saída.

Cada camada contém muitos neurônios. Cada neurônio tem vários valores que aprendeu durante o treinamento (como pesos e vieses). O modelo de dominância de sintagma nominal diz que os neurônios não operam por conta própria, mas se auto-organizam em torno de sintagmas nominais. Tanto a OpenAI quanto a Anthropic descobriram recentemente que essa é a verdade empírica — a maneira real como os LLMs operam sob o capô.

Conforme relatado pela Axios AI+ em 23 de agosto de 2024:

One way AI researchers are trying to understand how models work is by looking at the combinations of artificial neurons that are activated in an AI model’s neural network when a user enters an input.

These combinations, referred to as “features,” relate to different places, people, objects and concepts.

Researchers at Anthropic used this method to map a layer of the neural network inside its Claude Sonnet model and identified different features for people (Albert Einstein, for example) or concepts such as “inner conflict.”

They found that some features are located near related terms: For example, the “inner conflict” feature is near features related to relationship breakups, conflicting allegiances and the notion of a catch-22.

When the researchers manipulated features, the model’s responses changed, opening up the possibility of using features to steer a model’s behavior.

OpenAI similarly looked at a layer near the end of its GPT-4 network and found 16 million features, which are “akin to the small set of concepts a person might have in mind when reasoning about a situation,” the company said in a post about the work.

Bolded
  • Primeiro, observe que a Anthropic e a OpenAI agora confirmam nos testes que os neurônios de fato se auto-organizam, exatamente como o Modelo de Dominância Substantiva-Frase declarou.
  • Segundo, observe que a auto-organização não é em torno de verbos, adjetivos, advérbios, etc. Em contraste gritante, os neurônios se auto-organizam em torno de “lugares, pessoas, objetos e conceitos”. Em outras palavras, os neurônios se auto-organizam em torno de frases nominais — assim como o Modelo de Dominância Frase-Nome declarou.
  • Terceiro, os agrupamentos de sintagmas nominais (ou seja, características) agrupam “termos quase relacionados”, afirmando a existência de Rotas de Frases Nominais — assim como o Modelo de Dominância de Frases Nominais declarou.
  • Quarto, observe que a Anthropic e a OpenAI descobriram que a manipulação de frases nominais pode ser usada para “orientar o comportamento de um modelo” — assim como o Modelo de Dominância de Frases Nominais declarou.

Elimine alucinações — sim, IA SEM ERRO!

Esta é uma notícia INCRÍVEL! Afinal, o Modelo de Dominância de Frases Nominais é a chave para eliminar alucinações.

No entanto, a comunidade de pesquisa de alguma forma ignorou este modelo — ao mesmo tempo em que continua a proclamar que as alucinações são um problema intratável.

Desde o artigo de março de 2024, FOI DEMONSTRADO no mundo real como documentar o Modelo de Dominância de Frases Nominais e explica como esta é a chave para construir chatbots 100% precisos e livres de alucinações

. O Modelo de Dominância de Frases Nominais é real. E também a solução para finalmente eliminar as alucinações de uma vez por todas. Você pode construir chatbots 100% precisos… hoje mesmo.

the avatar of Alessandro de Oliveira Faria

Modelos TTT: A nova era da IA

https://arxiv.org/pdf/2407.04620

Não consigo sincronizar minhas pesquisas com os posts no blog (seria impossível), mas em 15 de Agosto fiquei surpreso, pois pesquisadores de instituições renomadas, incluindo Stanford, UC San Diego, UC Berkeley e Meta, estão avançando no desenvolvimento de uma nova arquitetura de inteligência artificial, conhecida como modelos TTT (test-time training). Essa inovação promete superar os desafios enfrentados pelos transformers tradicionais, oferecendo um processamento de dados mais eficiente e econômico para aplicações em IA generativa.

Os modelos transformers são essenciais em organizações como a OpenAI, formando a espinha dorsal de sistemas avançados como o Sora, um gerador de vídeo de última geração. Apesar de sua eficácia em processar linguagem natural e gerar texto, esses modelos consomem uma quantidade significativa de energia e exigem alta capacidade computacional. Um dos principais limitadores dos transformers é o estado oculto, que, embora armazene informações valiosas, requer revisão completa dos dados para responder a perguntas específicas, como sobre o conteúdo de um livro.

Para superar essas limitações, foi desenvolvido o modelo TTT, que elimina a necessidade de um estado oculto extensivo, substituindo-o por um mecanismo de aprendizado de máquina mais eficiente. Segundo Yu Sun, pós-doutorando em Stanford e colaborador na pesquisa, os modelos TTT são capazes de processar extensos volumes de dados — incluindo texto, imagens, áudio e vídeo — sem aumentar seu tamanho conforme mais dados são processados, algo que os diferencia dos transformers tradicionais.

As principais inovações das camadas TTT incluem:

  • Estados Ocultos Expressivos: Cada estado oculto nas camadas TTT é um modelo, como um modelo linear ou um MLP de duas camadas (Perceptron Multi-Camadas), que pode ser continuamente treinado para capturar melhor o contexto.
  • Regra de Atualização Auto-Supervisionada: O mecanismo de atualização para o estado oculto é baseado em aprendizado auto-supervisionado, permitindo que o modelo atualize seus parâmetros com base nos dados de entrada mesmo durante o tempo de teste.

Em termos de avanços práticos, a abordagem TTT aborda questões de escalabilidade e eficiência comumente enfrentadas por RNNs tradicionais e modelos de autoatenção por:

  • Manter uma complexidade linear em relação ao comprimento da sequência de entrada.
  • Potencialmente superando RNNs tradicionais como Mamba e modelos de autoatenção como Transformers no manejo de contextos de sequências longas.
  • Implementar otimizações de sistema que permitem que as camadas TTT funcionem eficientemente em hardware, beneficiando-se particularmente das arquiteturas modernas de GPU.

“Nossa abordagem permite que o sistema analise informações sobre um livro com menos complexidade computacional, evitando a necessidade de revisitar o texto múltiplas vezes”, explicou Sun ao TechCrunch. Essa tecnologia tem o potencial de transformar o processamento de vídeos longos, simulando a experiência visual humana sem as limitações dos grandes modelos baseados em transformers.

Outras empresas, como Mistral e AI21 Labs, também estão explorando tecnologias alternativas, como os modelos de espaço de estado (SSMs), que prometem eficiência comparável ou até superior aos transformers.

the avatar of Alessandro de Oliveira Faria

Inteligência Artificial no Direito

Durante minha pesquisa sobre a aplicação de Inteligência Artificial (IA) no setor jurídico, observei uma vasta oferta de ferramentas que prometem revolucionar a prática jurídica com o uso de IA. No entanto, após testar modelos de linguagem de grande escala (LLMs) proprietários e de código aberto, como Llama e Gemmini, surgiram questionamentos importantes sobre a real eficácia e limitações dessas tecnologias.

Muitos vídeos e conteúdos nas redes sociais promovem uma visão excessivamente otimista e, por vezes, sensacionalista, sugerindo que a IA pode acelerar significativamente a elaboração de documentos jurídicos complexos. No entanto, é crucial compreender que a IA não substitui o aconselhamento jurídico especializado. Através dos testes realizados, ficou evidente que, apesar das capacidades avançadas dos LLMs, eles não conseguem replicar a profundidade de análise e o julgamento crítico de um profissional jurídico experiente. As questões legais são, em sua essência, complexas e multifacetadas, exigindo que as decisões sejam fundamentadas em informações fornecidas por profissionais qualificados, capazes de entender as nuances e particularidades das leis.

Um dos principais desafios enfrentados pelos modelos de IA no setor jurídico é a compreensão contextual. Os LLMs algumas vezes falham em captar o contexto completo das questões jurídicas, resultando em respostas que, embora possam parecer corretas à primeira vista, carecem da profundidade necessária para uma análise adequada. Esse tipo de limitação pode, paradoxalmente, aumentar o trabalho ao invés de reduzi-lo, uma vez que as respostas geradas precisam ser revisadas e corrigidas por profissionais.

A linguagem jurídica, com sua complexidade e nuances, representa outro obstáculo significativo. Mesmo os modelos treinados especificamente para fins jurídicos podem cometer erros de interpretação que podem ter consequências graves. Nos testes realizados, foi comum observar interpretações incorretas até mesmo em demandas simples, como respostas a e-mails do dia a dia. Isso reforça a necessidade de cautela ao confiar em modelos de linguagem para tarefas jurídicas.

Além disso, a utilização de modelos baseados em nuvem para gerar conteúdo jurídico levanta sérias preocupações éticas relacionadas à privacidade, confidencialidade e ao manejo adequado de dados sensíveis. A ausência de responsabilidade por parte dos modelos de IA em relação às informações fornecidas é um ponto crítico, pois não há garantias sobre a veracidade ou as consequências das respostas geradas. A imprevisibilidade nas respostas dos modelos pode resultar em inconsistências ou contradições, o que é particularmente problemático no contexto jurídico, onde a clareza e coerência são essenciais.

Apesar dessas limitações, a IA oferece vantagens substanciais no campo jurídico, como a otimização do tempo e a melhoria na pesquisa e na elaboração de documentos. No entanto, é imperativo que os advogados estejam cientes dessas limitações e assumam a responsabilidade de validar as informações geradas, assegurando que estejam em conformidade com as normas éticas e profissionais. O uso criterioso da IA pode, sim, aumentar a produtividade no setor jurídico, mas sempre com a devida supervisão humana.

Por fim, surge a questão sobre a viabilidade do uso de Small Language Models (SLMs) em comparação com os LLMs nesse contexto. A escolha entre um SLM e um LLM deve ser cuidadosamente avaliada, levando em consideração as necessidades específicas da aplicação, os recursos disponíveis e as restrições de desempenho. É possível que, em certos casos, um SLM seja uma solução mais adequada, oferecendo respostas mais focadas e contextualizadas dentro das limitações impostas pelo cenário jurídico.

the avatar of Alessandro de Oliveira Faria

Grok-2 com capacidade de gerar imagens

xAI, a empresa de inteligência artificial de Elon Musk, anunciou ontem duas novas versões do seu chatbot Grok, denominadas Grok-2 e Grok-2 mini. Atualmente, esses modelos estão em fase beta na plataforma X, anteriormente conhecida como Twitter.

As atualizações incluem melhorias nas funcionalidades de chat, codificação e raciocínio. Além disso, esses modelos agora podem gerar imagens utilizando um modelo de IA chamado Flux 1, desenvolvido pela Black Forest Labs.

A xAI apresentou o Grok-2, destacando suas capacidades avançadas para usuários do X, incluindo bate-papo aprimorado, codificação e capacidades analíticas. O Grok-2 e sua versão menos avançada, o Grok-2 mini, estão disponíveis apenas para os assinantes Premium e Premium+ da plataforma.

Durante o evento de lançamento, foi mencionado que o Grok-2 integra informações em tempo real do X e utiliza avançada compreensão de texto e capacidades visuais para executar comandos complexos. Comparativamente, o Grok-2 mini foca em oferecer uma resposta mais rápida, embora com menos capacidades.

Desde a aquisição do X por Musk em 2022, a plataforma tem sido reticente em responder à imprensa, especialmente sobre questões futuras relacionadas ao Grok, deixando muitas perguntas sem resposta.

A xAI também planeja disponibilizar os modelos Grok-2 e Grok-2 mini para desenvolvedores através de uma API empresarial ainda este mês. A empresa anunciou recentemente uma rodada de financiamento que elevou sua avaliação, sublinhando o sucesso e a expansão contínua dos seus modelos de IA.