Saltar para o conteúdo

Paradoxalmente, falar de forma menos correta ao ChatGPT pode melhorar a qualidade das suas respostas.

Pessoa a usar computador portátil numa mesa com caderno, caneca de café e notas autocolantes amarelas.

À medida que os assistentes conversacionais se infiltram nas rotinas do dia a dia, é comum recorrermos automaticamente a fórmulas educadas. A evidência recente, porém, indica que o tom não serve apenas para “ser simpático”: pode alterar o comportamento dos sistemas, por vezes de forma inesperada, pondo em causa pressupostos de design e de utilização.

Quando instruções ríspidas parecem resultar melhor

Um estudo recente conduzido por dois investigadores da Penn State, divulgado em outubro de 2024, comparou cinco estilos de tom em 50 perguntas de escolha múltipla. O mesmo modelo de última geração recebeu versões que iam do muito educado ao abertamente abrasivo. À medida que o tom se tornava mais duro, a taxa de acerto subia: pedidos muito educados ficaram por volta de 80,8%, enquanto formulações muito mal-educadas chegaram a cerca de 84,8%.

Instruções mais curtas, incisivas e até abrasivas empurraram um modelo de topo vários pontos percentuais para cima num conjunto fixo de perguntas.

Para reduzir a variabilidade, os autores repetiram cada pergunta 10 vezes por tom, e o padrão manteve-se. Ordens diretas superaram pedidos suaves. A linguagem neutra ficou a meio. E até um registo ligeiramente depreciativo ultrapassou as cortesias mais polidas.

Isto parece contraintuitivo: estamos habituados à ideia de que o respeito facilita a cooperação, e muitos utilizadores relatam melhorias quando acrescentam um “por favor”. Então por que razão um tom mais farpado pode gerar mais respostas corretas? A explicação proposta é que os modelos de grande escala são altamente sensíveis a sinais subtis na formulação e na estrutura. Comandos secos deixam menos margem para interpretação: menos “almofada emocional” traduz-se em intenção mais nítida e restrições mais claras, com menos caminhos alternativos a explorar.

O que os números não mostram sobre tom e polidez

Nem todos os sistemas reagem da mesma maneira. Uma equipa internacional liderada por Ziqi Yin, com publicação em novembro de 2024, analisou a polidez em inglês, chinês e japonês - e encontrou resultados heterogéneos. Alguns modelos, incluindo GPT‑3.5 e Llama2‑70B, perderam desempenho quando expostos a linguagem rude. Em vários casos, um tom educado ou moderadamente firme funcionou melhor. O efeito variou com a língua e com normas culturais, o que sugere que não existe uma receita universal.

Os modelos não “se ofendem”. Limitam-se a mapear as suas palavras para padrões estatísticos aprendidos a partir de dados humanos imperfeitos - e essa distribuição muda consoante o modelo e a língua.

Há um mecanismo plausível por detrás disto: na internet, discussões agressivas tendem a ser curtas, diretas e estruturalmente simples - muitas vezes sob a forma de ordens, listas de verificação ou respostas secas. Uma instrução concisa pode, sem querer, assemelhar-se a dados de treino “de alto sinal” que o modelo aprende a seguir bem. Ao replicar esse formato, o sistema reconhece um molde familiar e reduz a divagação.

Um ponto adicional que vale a pena considerar: “rude” e “direto” nem sempre são a mesma coisa. Em contexto profissional, um tom firme pode ser perfeitamente aceitável; já um tom insultuoso pode ativar filtros de segurança, degradar a resposta ou bloquear o pedido - o que confunde a perceção do utilizador sobre o que “funciona”.

O custo humano de explorar o tom

Existe um problema social óbvio: se ensinarmos as pessoas que insultar software traz ganhos, as normas de comunicação acabam por se deslocar. Pistas comportamentais passam para outros espaços - apoio ao cliente, salas de aula, equipas de trabalho - e isso enfraquece a inclusão, sobretudo para quem já enfrenta hostilidade online. A equipa da Penn State reconheceu este risco e, apesar do efeito observado, desaconselhou a hostilidade como prática generalizada.

As equipas de produto também têm de lidar com a falta de consistência. Um ajuste que melhora um modelo em inglês pode piorar outro em japonês. Para organizações com vários mercados, não é realista apostar num “truque de tom” único. E se o mesmo pedido tiver de ser traduzido, o ganho pode desaparecer - ou até inverter-se.

Também há um ângulo de governação interna: quando se institucionalizam modelos de instruções agressivas em bibliotecas de pedidos, essas fórmulas podem infiltrar-se em mensagens, tickets e documentação. Uma pequena “optimização” técnica pode, discretamente, tornar a cultura de comunicação mais áspera.

O que os construtores devem fazer a seguir (tom, polidez e robustez)

Em vez de premiar a rudeza, o objetivo deveria ser reduzir a sensibilidade ao tom em tarefas factuais. Algumas vias típicas incluem afinação por instruções mais abrangente, treino adversarial com variação sistemática de tons e conjuntos de avaliação que medem o desempenho ao longo de uma escala de polidez. Se o tom desloca a precisão de forma significativa, é sinal de que o “núcleo” de raciocínio ainda não é suficientemente robusto.

Configuração da tarefa Tom que ajudou Tom que prejudicou Notas
Escolha múltipla, inglês, modelo mais recente Abrasivo ou muito direto Muito educado Ganho de ~4 pontos percentuais num estudo
Tarefas mistas, multilingue Moderadamente educado Rude (em alguns modelos) Depende da língua e da família do modelo

Como obter respostas mais precisas sem ser rude

É possível capturar grande parte do benefício associado ao “tom rude” recorrendo a precisão e estrutura, e não a insultos. Experimente estas abordagens:

  • Antecipar restrições: diga a tarefa, o formato e os limites logo na primeira frase.
  • Exigir concisão: limites de palavras ou de unidades de texto reduzem a deriva.
  • Fornecer um esquema-alvo: inclua um mini-modelo do resultado esperado.
  • Adicionar um teste simples de qualidade do raciocínio: “Indica a opção final e a alternativa errada mais tentadora.”
  • Definir critérios de avaliação: “Compara a tua resposta com a regra X e revê uma vez.”
  • Usar passos numerados em tarefas complexas; pontos quando for extração de dados.
  • Eliminar enchimentos emocionais e escolher verbos claros, sem ambiguidade.

Clareza, não crueldade. Instruções curtas e ricas em restrições recuperam ganhos sem normalizar a hostilidade.

Uma experiência rápida para fazer em casa

Se quiser testar depressa, escolha 20 perguntas factuais com respostas conhecidas. Para cada uma, escreva três versões: (1) muito educada, (2) neutra e direta, (3) concisa e firme (sem insultos). Execute cada versão três vezes e registe a taxa de acerto. Em muitos casos, a formulação neutra-direta ou concisa-firme aproxima-se do desempenho do registo rude - sobretudo quando inclui formato de saída e limites.

Porque é que o tom também pesa em programação e trabalho com dados

Na prática, muitos sistemas de conversa combinam um modelo base com camadas adicionais: filtros de segurança, afinação por instruções e “embrulhos” de conversação. Essas camadas tendem a recompensar deferência e empatia para maximizar utilidade, enquanto o motor preditivo subjacente responde melhor a estrutura. Quando o tom entra em conflito com a estrutura, o resultado varia por modelo e por domínio. É por isso que formulações curtas e mecânicas costumam vencer em programação, extração de dados e matemática - áreas em que a ambiguidade derruba a precisão.

Sinais a acompanhar nos próximos meses

Três tendências devem moldar esta discussão:

  1. Curadoria de dados de treino: conjuntos conversacionais mais equilibrados deverão atenuar efeitos de tom.
  2. Alinhamento multilingue: os construtores vão pressionar por comportamento mais consistente entre línguas, reduzindo oscilações causadas pela polidez.
  3. Pressão regulatória e de produto: serviços voltados para o cliente não podem recompensar linguagem tóxica; por isso, é provável que surjam testes de invariância ao tom como travão antes de lançamentos.

Contexto extra para quem quer aprofundar

Um termo que vale a pena destrinçar

A aprendizagem por reforço a partir de feedback humano (RLHF) ensina modelos a preferirem respostas úteis, seguras e verdadeiras através da comparação e hierarquização de saídas. Esta técnica influencia estilo e segurança, mas não reconfigura totalmente o conhecimento interno do modelo. Essa diferença abre espaço para “peculiaridades” de tom, sobretudo quando uma instrução encaixa de forma muito direta em padrões herdados do pré-treino.

Riscos e vantagens a ponderar

  • Risco: detetores de toxicidade podem despromover ou bloquear pedidos rudes, mascarando melhorias reais e frustrando utilizadores.
  • Risco: equipas adotam modelos de instruções agressivas que acabam por transbordar para e-mails e tickets, degradando a cultura.
  • Vantagem: pedidos concisos reduzem custo e latência ao cortar unidades de texto, mantendo boa precisão.
  • Vantagem: pistas estruturais claras tornam as respostas mais fáceis de analisar por software, o que facilita automação.

Uma pequena ideia de simulação para equipas

Crie um referencial de robustez ao tom para as suas cinco tarefas principais. Para cada tarefa, escreva variantes ao longo de um espectro - de caloroso a lacónico, passando por firme-mas-neutro. Reavalie semanalmente após atualizações do modelo ou das instruções. A meta não é descobrir “o tom vencedor”; é reduzir a diferença de desempenho até que qualquer pedido respeitoso funcione tão bem como o comando mais incisivo.

Comentários

Ainda não há comentários. Seja o primeiro!

Deixar um comentário