Ao longo desses 24 anos de existência, escrevemos dezenas de artigos mostrando os avanços da neurociência e da fonoaudiologia, na busca de respostas da complexidade que é a audição e como praticamente todo o corpo pode estar envolvido no simples ato de ouvir uma moeda caindo ao chão. Neste mês trago aos nossos leitores uma incrível experiência feita com 30 participantes (15 homens e 15 mulheres) coordenado pelo comitê de revisão ética da Universidade de Connecticut, que supervisionou todas as etapas do estudo e o aprovou no relatório H 18260.
Todos os participantes assinaram um termo de consentimento e liberaram o estudo para divulgação em todas as mídias disponíveis.
O estudo tinha por objetivo detectar se os ouvintes eram capazes de repetir os gestos de punho e braço feitos na gravação dos cantores, sem ver as imagens, apenas escutando os vocalizes em um fone de ouvido. Foram gravados três cantores homens e três cantoras de prestígio, sem nenhum acompanhamento instrumental.
A esses cantores foi pedido para que as fundamentais fossem marcadas pela respiração enquanto podiam mover o punho ou o braço de maneira rítmica (em andamentos distintos: mais lentos e mais rápidos).
Movimentos do vocalizador (A) e padronização acústica resultante causada pelo movimento (B). (A) Seis vocalizadores moveram o punho e o braço de maneira rítmica em ritmos diferentes (lento = 1,06 Hz; médio = 1,33 Hz; rápido = 1,6 Hz), guiados por uma barra verde conectada digitalmente a um sistema de rastreamento de movimento, que representava sua frequência de movimento em relação ao tempo alvo. Posturas humanas modificadas a partir da ref. 23. (B) O movimento resultante e os dados acústicos foram coletados. A pré-análise mostrou de fato que a acústica era afetada pelo movimento, com picos acentuados na frequência fundamental (percebida como tom; C) e no envelope de amplitude suavizada da vocalização (em roxo, B) quando os movimentos atingiram picos de desaceleração durante o movimento de parada na extensão máxima. Picos na desaceleração do movimento levam a neutralizar os ajustes musculares em todo o corpo recrutados para manter a integridade postural, que também se transforma em cascata na acústica da vocalização. (D) Aqui avaliamos como a frequência fundamental da voz (na faixa humana: 75 a 450 Hz) foi modulada em torno da extensão máxima para cada vocalizador e combinada para todos os vocalizadores (linha vermelha). D mostra que a F0 normalizada com média suavizada (também prejudicada linearmente e em escala z por tentativa de vocalização) atingiu o pico no momento da extensão máxima, quando ocorreram uma desaceleração e aceleração repentinas; F0 normalizado mergulhou nos momentos de baixo impulso físico da fase de movimento (quando a velocidade era constante), subindo novamente para uma flexão máxima (300 a 375 ms antes e após a extensão máxima), replicando trabalhos anteriores. O movimento do punho do vocalizador mostrou uma modulação F0 menos pronunciada em comparação com os ensaios de movimento do braço do vocalizador. Para diferenças individuais do vocalizador para cada condição de andamento, consulte o gráfico interativo fornecido no Apêndice SI.
No total foram coletadas trinta e seis vocalizações diferentes dos 6 cantores (3 homens e 3 mulheres). Foi solicitado aos 30 participantes que sincronizassem o seu próprio movimento de pulso com o do cantor, e também o movimento de braço.
Se os ouvintes pudessem sincronizar o andamento e a fase de seus movimentos com o dos cantores, isso forneceria evidências de que a acústica da voz pode informar sobre os estados de tensão corporal – mesmo quando o cantor (ou o músico) não têm um objetivo explícito de comunicação interpessoal.
Aos interessados em se aprofundar neste tema, fica aqui o link:
https://osf.io/ygbw5/
E dos scripts deste estudo:
https://osf.io/9843h/.
Os ouvintes foram capazes de detectar e sincronizar com o movimento das vocalizações, de maneira confiável o andamento do movimento do pulso e do braço aos ritmos lentos, médios e rápidos executados pelos 6 cantores. E o mais espantoso: até o ângulo de movimento do braço foi bastante aproximado. Indicando que o ouvinte foi capaz de antecipar os movimentos do que ainda iria ouvir!
Surpreendentemente, e contra as expectativas de todos os envolvidos, até os movimentos mais difíceis de pulso foram repetidos por parte dos participantes.
As conclusões são ainda mais surpreendentes, pois se provou que os gestos não são apenas vistos – eles também podem ser ouvidos.
As pessoas que não entendem a Metodologia criada pela CAVI, nos acusam de termos reinventado a roda. Os mais ‘virulentos’ nos acusam de termos inventado termos como “Corpo Harmônico” e a “Intencionalidade” na avaliação de texturas.
Desde 1999, quando lançamos a Metodologia, nos esforçamos em mostrar através de artigos científicos e pela nossa prática no dia a dia na observação auditiva de todo produto aqui testado, que ambos (corpo e intencionalidade) podem e devem ser observados, pois são dois quesitos que essencialmente ajudam o nosso cérebro a esquecer que o que estamos a escutar é reprodução eletrônica. E quanto mais natural e realista for a reprodução desses dois quesitos, mais nosso cérebro irá relaxar e apreciar o que está ouvindo.
O que nos traz um enorme alento é saber que, com o avanço da neurociência, muito do nosso ponto de vista finalmente sai da mera hipótese e ganha comprovação científica. Fomos ferozmente atacados por mais de uma década, mas sabíamos e sempre tivemos como repetir ad infinitum nossas observações para quem tivesse o interesse de ouvir e entender o que defendemos e escrevemos mensalmente em nossos testes.
Assim como este estudo comprovou que podemos ‘ver’ apenas ouvindo, e repetir os gestos dos membros superiores de um cantor, o mesmo ocorre com qualquer instrumento, se tivermos o hábito de ouvir música ao vivo e formos excelentes observadores. Nosso sistema de audição, em bom estado, é o instrumento perfeito para fornecer à nossa memória de longo prazo tudo que necessitamos para, no aconchego de nossa sala de audição, conseguir ver o que estamos a ouvir.
E, acreditem, com o tempo, em sistemas de qualidade, poderemos sem nenhum esforço perceber toda intencionalidade do solista, seus trejeitos, sua digitação, sua técnica e mais: até o grau de relaxamento ou de tensão em que o músico estava no momento da gravação. Ou se houve algum desconforto ou insegurança.
Os práticos irão preferir ter um sistema de home-theater de qualidade hi-end, e dar de ombros à essa busca pela imagem apenas através do som. A esses, sinto dizer que estudos neurológicos confirmam que quando temos a imagem projetada em uma tela, nossa capacidade de audição é reduzida pela metade (ficando muito rapidamente em segundo plano) e a capacidade de fadiga visual e auditiva é muito mais intensa.
Como sempre escrevi e defendi, somos livres para fazer o que quisermos. Mas, para aqueles que amam a música, poder desfrutar de seus discos com esse grau de intimidade e cumplicidade é o último degrau a ser conquistado.
Informações acústicas sobre o movimento do membro superior na sonoridade
Mostramos que a voz humana carrega uma assinatura acústica de tensão muscular durante os movimentos dos membros superiores, que pode ser detectada pelos ouvintes.
pecificamente, descobrimos que os ouvintes humanos podem sincronizar seus próprios movimentos com movimentos muito sutis do punho de um vocalizador apenas ouvindo suas vocalizações e sem nenhum contato visual. Este estudo mostra que a voz humana contém informações sobre estados corporais dinâmicos, abrindo caminho para nossa compreensão da evolução da linguagem falada e da comunicação não verbal. Os resultados atuais estão alinhados com outras pesquisas em animais não humanos, mostrando que as vocalizações carregam informações sobre estados e capacidades corporais.
Mostramos que a voz humana possui qualidades acústicas complexas que estão diretamente acopladas ao tensionamento musculoesquelético periférico do corpo, como movimentos sutis do punho. Neste estudo, os vocalizadores humanos produziram uma vocalização em estado estacionário enquanto moviam ritmicamente o pulso ou o braço em ritmos diferentes. Embora os ouvintes só pudessem ouvir e não ver o vocalizador, eles foram capazes de sincronizar completamente seu próprio movimento rítmico de punho ou braço com o movimento do vocalizador que eles perceberam na acústica da voz. Este estudo corrobora evidências recentes sugerindo que a voz humana é restringida por tensão corporal que afeta o sistema respiratório-vocal. Os resultados atuais mostram que a voz humana contém uma impressão corporal que é diretamente informativa para a percepção interpessoal dos estados físicos dinâmicos de outra.
A fala humana é um sinal acústico maravilhosamente rico, carregando informações comunicativamente significativas em vários níveis e escalas de tempo. A capacidade vocal humana é considerada muito mais avançada em comparação com nossos parentes primatas vivos mais próximos. No entanto, apesar de toda a sua riqueza e destreza, a fala humana é frequentemente complementada com movimentos das mãos conhecidos como gesto de co-fala. As teorias atuais sustentam que os gestos de co-fala ocorrem porque melhoram visualmente a fala, representando ou apontando para os referentes comunicativos. No entanto, os alto-falantes não apenas gesticulam para enriquecer visualmente a fala: os humanos gesticulam no telefone quando seu interlocutor não os pode ver, e as crianças cegas congênitas até gesticulam entre si de maneiras indistinguíveis dos gestos produzidos pelas pessoas com visão.
Os gestos de co-fala, independentemente do que representem, coordenam-se ainda mais com os aspectos melódicos da fala conhecidos como prosódia. Especificamente, as expressões salientes do gesto (por exemplo, aumentos repentinos na aceleração ou desaceleração) tendem a se alinhar com os momentos de ênfase na fala. Modelos computacionais recentes treinados em associações de acústica de gestos e fala de um indivíduo conseguiram produzir gestos sintéticos de aparência muito natural com base em novas acústicas de fala desse mesmo indivíduo, sugerindo uma relação muito estreita (mas específica da pessoa) entre informações prosódico-acústicas na fala e no movimento gestual. Essa pesquisa se encaixa com descobertas notáveis de que os falantes da conversa que não conseguem ver e apenas ouvir um ao outro tendem a sincronizar sua influência postural (isto é, o movimento leve e quase imperceptível necessário para manter a pessoa na posição vertical).
Pesquisas recentes sugerem que pode realmente haver um elo fundamental entre os movimentos corporais e a acústica da fala: as vocalizações foram acusticamente padronizadas pelos movimentos periféricos dos membros superiores, devido a esses movimentos também afetando a tensão dos músculos relacionados à respiração que modulam a acústica vocal. Isso sugere que a voz humana possui uma complexidade ainda maior, transportando informações sobre movimentos (isto é, tensão) do sistema músculo-esquelético. No presente estudo, investigamos se os ouvintes são capazes de perceber as informações do movimento dos membros superiores na voz humana.
Para avaliar se os ouvintes podem detectar movimento da acústica vocal, avaliamos se os ouvintes poderiam sincronizar o movimento de seus braços ou pulsos ouvindo vocalizadores que foram instruídos a mover seus braços ou pulsos em ritmos diferentes. Primeiro, coletamos dados naturalistas de seis participantes de prestígio (vocalizadores; três homens e mulheres cisgêneros) que vocalizaram para a vogal /a/ (como no poderá ) com uma respiração enquanto movia o punho ou o braço de maneira rítmica em ritmos diferentes (lento vs médio vs rápido). Solicitou-se aos participantes do estudo que mantivessem sua produção vocal o mais estável e monotônica possível enquanto moviam os membros superiores.
O feedback do andamento do movimento foi fornecido por uma barra verde que representava visualmente a duração do ciclo de movimento imediatamente anterior do participante (medido através do sistema de rastreamento de movimento) em relação àquele especificado pelo andamento do objetivo (Fig. 1 A). Os participantes foram solicitados a manter a barra dentro de uma região específica (ou seja, 10% do tempo alvo). A barra verde, portanto, forneceu informações sobre o andamento imediatamente anterior do movimento em relação ao andamento prescrito, sem que a representação visual se movesse no próprio andamento. É importante notar que os vocalizadores não foram expostos a um sinal rítmico externo, como um metrônomo (visual). Observe também que, em um estudo anterior, quando os vocalizadores se movem no seu próprio ritmo preferido – sem feedback visual sobre o andamento do movimento – também são obtidas modulações acústicas que são fortemente sincronizadas com os ciclos de movimento. Se os participantes vocalizam sem movimentos, no entanto, modulações acústicas estão ausentes. Semelhante à pesquisa anterior, no presente estudo, os movimentos das mãos afetaram inadvertidamente a acústica da voz desses participantes do vocalizador de prestígio (Fig. 1 D) fornecendo assim uma possível fonte de informação para os ouvintes no estudo principal.
No estudo principal, 30 participantes (ouvintes; 15 homens e mulheres cisgêneros) foram instruídos a sincronizar seus próprios movimentos com os movimentos de punho e braço do vocalizador, tendo acesso apenas às vocalizações desses participantes de prestígio, apresentadas por meio de um fone de ouvido (para materiais detalhados e método, consulte o Apêndice SI. Trinta e seis vocalizações (6 vocalizadores diferentes × 3 tempos × 2 movimentos do punho vs braço do vocalizador) foram apresentadas duas vezes aos ouvintes, uma vez quando foram instruídas a sincronizar com o vocalizador com o seu próprio movimento do pulso e uma vez com o seu próprio movimento do braço. Se os ouvintes puderem sincronizar o andamento e a fase de seus movimentos com os dos vocalizadores, isso forneceria evidências de que a acústica da voz pode informar sobre os estados de tensão corporal – mesmo quando o vocalizador não tem um objetivo explícito de comunicação interpessoal.
O comitê de revisão ética da Universidade de Connecticut aprovou este estudo (aprovação H18-260). Todos os participantes assinaram um termo de consentimento livre e esclarecido e os participantes do prestudy do vocalizador também assinaram um formulário de liberação de áudio.
As hipóteses e a metodologia foram pré-registradas no Open Science Framework – OSF
(https://osf.io/ygbw5/).
Os scripts de dados e análise que suportam este estudo podem ser encontrados no OSF
(https://osf.io/9843h/).
De acordo com nossas hipóteses, descobrimos que os ouvintes eram capazes de detectar e sincronizar com o movimento das vocalizações (para esses resultados, consulte a Fig. 2; para resultados detalhados, consulte o Apêndice SI. Os ouvintes ajustaram de maneira confiável o andamento do movimento do pulso e do braço aos ritmos lentos, médios e rápidos executados pelos vocalizadores. Além disso, as médias circulares dos ouvintes das fases relativas (Φ) foram densamente distribuídas em torno de 0° (isto é, quase sincronia perfeita), com uma assincronia média negativa geral de 45 °, indicando que o ouvinte antecipou levemente o vocalizador. Surpreendentemente – e contra nossas expectativas originais – até descobrimos que isso se aplicava ao movimento do pulso do vocalizador mais difícil de detectar. A variabilidade da fase relativa (medida pelo DP circular Φ) foi, no entanto, ligeiramente aumentada para vocalizações de punho vs. braço, com aumento de 0,28 no DP circular Φ; isso indicou que os ouvintes tinham maior dificuldade de sincronizar em fase com os movimentos do punho e do braço do vocalizador.
Resultados de sincronia. O exemplo mostra como os movimentos podem ser sincronizados entre o ouvinte e o vocalizador. Um movimento totalmente assíncrono implicaria uma incompatibilidade do andamento do movimento e uma variação aleatória das fases relativas. A sincronização de fases pode ocorrer sem a correspondência exata dos tempos de movimento. A sincronização completa implica a correspondência de tempo e o faseamento relativo de 0 ° entre o movimento do vocalizador e do ouvinte. Os principais resultados mostram uma sincronização clara do andamento, uma vez que as frequências observadas para cada tentativa de vocalização eram bem compatíveis com as frequências de movimento observadas dos ouvintes que se deslocavam para essa tentativa. Da mesma forma, a sincronização de fases era claramente aparente, pois as distribuições de fases são acentuadamente mais altas do que as distribuições planas, com uma assincronia média negativa independentemente do movimento do vocalizador ou do andamento do movimento (R² ajustado) para cada ensaio, indicando o grau de variabilidade de modulações F0 normalizados em torno momentos da extensão máxima (ver também Fig. 1 D). A variação explicada para cada tentativa de vocalizador foi regredida em relação ao desempenho médio de sincronização (fase relativa circular média do DP, DP Φ) dessa tentativa pelos ouvintes. Pode-se observar que mais modulações estruturais de F0 em torno das extensões máximas do movimento do membro superior (maior R² ajustado) preveem melhor desempenho de sincronização (menor SD Φ), r = -0,48, P<0,003. Isso significa que um padrão acústico mais confiável na voz do vocalizador prevê um desempenho mais alto da sincronização do ouvinte. Posturas humanas modificadas a partir da ref. 23.
Concluímos que as vocalizações carregam informações sobre os movimentos dos membros superiores do vocalizador, uma vez que os ouvintes podem se ajustar e sincronizar com os movimentos auditando apenas a vocalização. É importante ressaltar que esse sincronismo de andamento e fase não era um artefato de chance, pois três tempos de movimento diferentes foram apresentados em ordem aleatória. Esses efeitos também não são redutíveis a idiossincrasias nos vocalizadores, pois esses padrões foram observados em seis vocalizadores diferentes com diferentes qualidades acústicas da voz (por exemplo, vocalizadores cisgêneros masculino e feminino). Além disso, os vocalizadores não acoplavam deliberadamente a produção vocal com o movimento e eram propensos a tentar inibir esses efeitos, pois haviam sido instruídos a manter a produção vocal o mais estável possível.
Portanto, nosso entendimento do acoplamento entre os domínios acústico e motor é enriquecido pelos presentes achados de que as informações sobre o movimento corporal estão presentes na acústica. Pesquisas anteriores mostraram, por exemplo, que um envelope suavizado da amplitude da fala está intimamente relacionado aos movimentos articulatórios da boca. De fato, ver ou mesmo sentir manualmente os movimentos articulatórios podem resolver sons auditivamente ambíguos que são artificialmente transformados pelos experimentadores, levando os ouvintes a ouvir um “pa” em vez de um “da”, dependendo das informações visuais ou hápticas dos lábios do falante. Os resultados atuais acrescentam outro membro à família de acoplamentos motor-acústicos, mostrando que a voz humana contém assinaturas acústicas dos movimentos das mãos e que os ouvintes humanos são profundamente sensíveis a ela.
Os movimentos gestuais da mão podem, assim, ter evoluído como uma inovação incorporada ao controle vocal, bem como outras restrições corporais nas propriedades acústicas da vocalização humana. Está bem estabelecido que informações sobre corpos de vocalizações são exploradas na natureza por espécies não humanas. Por exemplo, macacos rhesus associam diferenças de tamanho corporal relacionadas à idade de indivíduos específicos das qualidades acústicas de “coos”. Os orangotangos até tentam explorar ativamente essa relação: eles colocam as mãos na frente da boca quando vocalizam, alterando a qualidade do som, presumivelmente para parecer acusticamente mais ameaçador em tamanho. Os seres humanos também podem prever com algum sucesso a força da parte superior do corpo dos vocalizadores masculinos, especialmente pelo rugido, em oposição a, por exemplo, vocalizações gritantes. Os resultados atuais acrescentam a essa literatura que os movimentos periféricos dos membros superiores também imprimem sua presença na voz humana, fornecendo uma fonte de informação sobre a mudança dinâmica dos estados corporais. Uma implicação dos achados atuais é que os sistemas de reconhecimento de fala podem ser aprimorados ao se tornarem sensíveis a essas relações corpo-acústicas.
Com os resultados atuais em mãos, torna-se, portanto, possível que ouvir a excitação de um amigo por telefone seja, em parte e às vezes, percebida por nós através da acústica induzida por gestos que são percebidas diretamente como tensões corporais. Os gestos, portanto, não são apenas vistos – eles também podem ser ouvidos.
Esta pesquisa foi financiada pela Organização Holandesa de Pesquisa Científica (NWO; Rubicon Grant “Atuação em Cinemática Enacted”, Grant nº 446-16-012; PI WP). Ao escrever o relatório da pesquisa, o WP foi ainda apoiado por uma bolsa do DCC concedida pelo Instituto Donders de Cérebro, Cognição e Comportamento e uma posição de pós-doutorado no Consórcio Language in Interaction (Gravitation Grant 024.001.006, financiado pelo NWO).
Wim Pouw, Alexandra Paxton, Steven J. Harrison & James A.
Dixon – PNAS publicado pela primeira vez em 11 de maio de 2020.
Editado por Asif A. Ghazanfar, Universidade de Princeton, Princeton, NJ, e aceito pelo membro do conselho editorial Peter L. Strick em 23 de março de 2020 (recebido para revisão em 5 de março de 2020).
Leia a publicação original na íntegra em:
https://www.pnas.org/content/early/2020/05/05/2004163117