Índice:
Vídeo: Aprendendo com Erros (Novembro 2024)
Um dispositivo Amazon Echo registrou recentemente a conversa privada de um usuário e a enviou a um de seus contatos sem seu conhecimento e consentimento. Isso (novamente) levanta preocupações sobre a segurança e a privacidade dos alto-falantes inteligentes. Porém, como ficou mais tarde evidente, o comportamento estranho de Alexa não fazia parte de um plano sinistro de espionagem - foi causado por uma série de falhas vinculadas atribuídas à maneira como o alto-falante inteligente funciona.
O cenário é um caso extremo, o tipo de incidente que acontece muito raramente. Mas também é um estudo interessante sobre os limites da tecnologia de inteligência artificial que alimenta o Echo e outros dispositivos chamados "inteligentes".
Muita confiança na nuvem
Para entender os comandos de voz, alto-falantes inteligentes, como o Echo e o Google Home, contam com algoritmos de aprendizado profundo, que exigem amplo poder de computação. Como eles não têm os recursos de computação para executar a tarefa localmente, devem enviar os dados para os servidores em nuvem do fabricante, onde os algoritmos de IA transformam os dados de fala em texto e processam os comandos.
Mas os alto-falantes inteligentes não podem enviar tudo o que ouvem a seus servidores em nuvem, porque isso exigiria que o fabricante armazenasse quantidades excessivas de dados em seus servidores - a maioria seria inútil. Gravar e armazenar acidentalmente conversas privadas ocorrendo nas casas dos usuários também apresentaria um desafio à privacidade e poderia causar problemas aos fabricantes, especialmente com os novos regulamentos de privacidade de dados que impõem severas restrições sobre como as empresas de tecnologia armazenam e usam dados.
É por isso que os alto-falantes inteligentes são projetados para serem acionados depois que o usuário pronuncia uma palavra de alerta como "Alexa" ou "Hey Google". Somente depois de ouvir a palavra de alerta, eles começam a enviar a entrada de áudio de seus microfones para a nuvem para análise e processamento.
Embora esse recurso melhore a privacidade, ele apresenta seus próprios desafios, como destacou o recente incidente do Alexa.
"Se uma palavra - ou algo parecido com isso - for enviada no meio de uma conversa, a Alexa não terá nenhum contexto anterior", diz Joshua March, CEO da Conversocial. "Nesse ponto, está escutando com extrema atenção todos os comandos relacionados às habilidades que você configurou (como o aplicativo de mensagens). Na maior parte, a privacidade é bastante aprimorada ao restringir o contexto em que o Alexa está prestando atenção (como não está gravando ou ouvindo nenhuma de suas conversas normais), embora isso tenha saído pela culatra nesse caso ".
Os avanços na computação de borda podem ajudar a aliviar esse problema. À medida que a IA e o aprendizado profundo chegam a cada vez mais dispositivos e aplicativos, alguns fabricantes de hardware criaram processadores especializados para executar tarefas de IA sem depender muito dos recursos da nuvem. Os processadores Edge AI podem ajudar dispositivos como o Echo a entender e processar melhor as conversas sem violar a privacidade dos usuários enviando todos os dados para a nuvem.
Contexto e Intenção
Além de receber peças de áudio díspares e fragmentadas, a IA da Amazon luta para entender as nuances da conversa humana.
"Embora tenha havido grandes avanços no aprendizado profundo nos últimos anos, permitindo que o software entenda a fala e as imagens melhor do que nunca, ainda existem muitos limites", diz March. "Embora os assistentes de voz possam reconhecer as palavras que você está dizendo, eles não têm necessariamente nenhum tipo de entendimento real sobre o significado ou a intenção por trás dele. O mundo é um lugar complexo, mas hoje qualquer sistema de IA é capaz de lidar com muito casos de uso específicos e restritos ".
Por exemplo, nós, humanos, temos muitas maneiras de determinar se uma sentença é dirigida a nós, como tom de voz ou seguir pistas visuais - digamos, a direção que o orador está olhando.
Por outro lado, Alexa presume que seja o destinatário de qualquer sentença que contenha a palavra "A". É por isso que os usuários costumam acioná-lo acidentalmente.
Parte do problema é que exageramos os recursos dos aplicativos atuais de IA, colocando-os em pé de igualdade com a mente humana ou acima dela e depositando muita confiança neles. É por isso que ficamos surpresos quando eles falham espetacularmente.
"Parte da questão aqui é que o termo 'IA' foi tão agressivamente comercializado que os consumidores depositaram uma quantidade imerecida de fé em produtos com esse termo vinculado a eles", diz Pascal Kaufmann, neurocientista e fundador da Starmind. "Esta história ilustra que o Alexa tem muitos recursos e um entendimento relativamente limitado de como e quando eles devem ser aplicados adequadamente".
Os algoritmos de aprendizado profundo tendem a falhar quando enfrentam configurações diferentes dos dados e cenários para os quais foram treinados. "Um dos recursos definidores da IA em nível humano será a competência auto-suficiente e uma verdadeira compreensão do conteúdo", diz Kaufmann. "Esta é uma parte crucial de considerar verdadeiramente uma IA 'inteligente' e vital para o seu desenvolvimento. A criação de assistentes digitais autoconscientes, que trazem consigo uma compreensão completa da natureza humana, marcará sua transformação de uma novidade divertida em uma verdadeira ferramenta útil."
Mas criar IA de nível humano, também conhecido como IA geral, é mais fácil dizer do que fazer. Por muitas décadas, pensamos que está chegando, apenas para ficar consternado com os avanços tecnológicos que mostram como a mente humana é complicada. Muitos especialistas acreditam que perseguir a IA geral é inútil.
Enquanto isso, a IA restrita (como as atuais tecnologias de inteligência artificial são descritas) ainda apresenta muitas oportunidades e pode ser corrigida para evitar erros repetidos. Para ser claro, o aprendizado profundo e o aprendizado de máquina ainda são incipientes, e empresas como a Amazon atualizam constantemente seus algoritmos de IA para lidar com casos extremos toda vez que acontecem.
O que precisamos fazer
"Este é um campo jovem e emergente. O entendimento da linguagem natural está especialmente na sua infância, então há muito o que fazer aqui", diz Eric Moller, CTO do Atomic X.
Moller acredita que os algoritmos de IA de análise de voz podem ser ajustados para entender melhor a entonação e a inflexão. "Usar a palavra 'Alexa' em uma frase mais ampla parece diferente de uma invocação ou comando. Alexa não deve acordar porque você disse esse nome de passagem", diz Moller. Com treinamento suficiente, a IA deve ser capaz de distinguir quais tons específicos são direcionados ao alto-falante inteligente.
As empresas de tecnologia também podem treinar sua IA para poder distinguir quando está recebendo ruído de fundo em vez de falar diretamente. "A conversa em segundo plano tem uma 'assinatura' auditiva única de que os seres humanos são muito bons em captar e sintonizar seletivamente. Não há razão para não treinarmos modelos de IA para fazer o mesmo", diz Moller.
Como precaução, os assistentes de IA devem avaliar o impacto das decisões que estão tomando e envolver decisões humanas nos casos em que desejam fazer algo potencialmente sensível. Os fabricantes devem aplicar mais salvaguardas em suas tecnologias para impedir que informações confidenciais sejam enviadas sem o consentimento explícito e claro do usuário.
"Embora a Amazon tenha relatado que o Alexa tentou confirmar a ação que interpretou, algumas ações precisam ser gerenciadas com mais cuidado e mantidas em um padrão mais alto de confirmação da intenção do usuário", diz Sagi Eliyahi, CEO da Tonkean. "Os seres humanos têm os mesmos problemas de reconhecimento de fala, às vezes solicitando erros de interpretação. Ao contrário do Alexa, porém, é mais provável que um humano confirme absolutamente que entende um pedido pouco claro e, mais importante, avalie a probabilidade de um pedido em comparação com pedidos anteriores".
Enquanto isso…
Enquanto as empresas de tecnologia ajustam seus aplicativos de IA para reduzir erros, os usuários terão que tomar a decisão final sobre o quanto desejam ser expostos aos possíveis erros que seus dispositivos com inteligência artificial podem cometer.
"Essas histórias mostram um conflito com a quantidade de dados que as pessoas estão dispostas a compartilhar com a promessa de novas tecnologias de IA", diz Doug Rose, especialista em ciência de dados e autor de vários livros sobre IA e software. "Você pode provocar Siri por ser lenta. Mas a melhor maneira de obter maior inteligência é invadindo nossas conversas privadas. Portanto, uma pergunta fundamental ao longo da próxima década é o quanto permitiremos que esses agentes de IA espiem nosso comportamento ?"
"Qual família colocaria um assistente humano na sala de estar e deixaria essa pessoa ouvir qualquer tipo de conversa o tempo todo?" diz Kaufmann, o neurocientista de Starmind. "Deveríamos pelo menos aplicar os mesmos padrões aos chamados dispositivos 'AI' (se não mais altos) que também aplicamos aos seres humanos inteligentes quando se trata de privacidade, sigilo ou confiabilidade".