6 de Junho de 2025

Gemini 2.5 Flash: o novo modo de voz da Google que compreende emoções humanas

A Google acaba de dar um passo importante na humanização da inteligência artificial. Com o lançamento do Gemini 2.5 Flash, o assistente virtual da empresa passa a compreender emoções humanas através do tom de voz, tornando a interação com a IA mais natural, personalizada e fluida. A novidade está já disponível com suporte para vários idiomas, incluindo o português, e promete revolucionar a forma como falamos com máquinas.

Conversas mais humanas com a IA

Diferenciando-se dos assistentes tradicionais, o Gemini 2.5 Flash utiliza tecnologia de voz generativa e capacidades multimodais para interpretar emoções como frustração, entusiasmo, ironia ou dúvida — tudo com base nas variações subtis do tom de voz. O sistema analisa não apenas as palavras ditas, mas também a forma como são ditas, ajustando a resposta da IA em tempo real e de forma mais empática.

A Google destaca que esta funcionalidade oferece respostas mais precisas e contextualizadas, graças a um motor de raciocínio melhorado, capaz de lidar com tarefas complexas sem perder o fio à meada.

Latência mínima e expressividade máxima

Entre as principais inovações, destaca-se a latência ultrabaixa, que permite uma experiência de conversação quase instantânea. O Gemini 2.5 Flash consegue imitar a prosódia humana — ritmo, entoação e expressividade —, e oferece a possibilidade de personalizar o estilo de fala: desde alterar o sotaque ou tom (sussurrado, entusiasmado, pausado), até ajustar a velocidade e o ênfase do discurso.

Além disso, o sistema ignora ruídos de fundo e conversas paralelas, focando-se apenas no que é relevante. E graças à integração com ferramentas como a Pesquisa Google e APIs externas, é possível obter informações práticas sem interrupções no diálogo.

Multimodalidade e suporte a múltiplos idiomas

Com capacidades multimodais, o Gemini 2.5 também analisa conteúdos visuais — como vídeos e partilhas de ecrã — para responder a perguntas contextuais. E suporta mais de 24 idiomas, permitindo até o uso misto numa mesma frase. Este avanço abre portas para aplicações mais inclusivas, particularmente em áreas como educação, acessibilidade e atendimento ao cliente.

Como experimentar?

A versão de pré-visualização do Gemini 2.5 Flash está disponível através da aba “stream” no Google AI Studio. Já a geração de voz controlável (TTS), incluída tanto no Gemini 2.5 Pro como no Flash, pode ser testada seleccionando “speech generation” na secção “generate media”.

Com este lançamento, a Google posiciona o Gemini como mais do que um simples assistente virtual — trata-se de um verdadeiro interlocutor digital, capaz de perceber emoções e adaptar-se ao contexto com uma naturalidade até agora inédita nas interações homem-máquina.

Gemini 2.5 Flash: o novo modo de voz da Google que compreende emoções humanas

Conversas mais humanas com a IA

Latência mínima e expressividade máxima

Multimodalidade e suporte a múltiplos idiomas

Como experimentar?

Artigos relacionados

LG Smart Monitor Swing: o monitor 4K que revoluciona a produtividade e o entretenimento

Wikipedia perde terreno para o ChatGPT: o fim das enciclopédias online?

LG xboom by will.i.am: o som do futuro chegou a Portugal com estilo e tecnologia

Deixe uma resposta