Lar Visão de futuro Assistentes inteligentes: o que vem depois da siri?

Assistentes inteligentes: o que vem depois da siri?

2024

Vídeo: Secretária virtual da Amazon fala PORTUGUÊS - O que é a ALEXA? (Novembro 2024)

Assistentes inteligentes - Siri, Google Now, Cortana e similares - passaram de curiosidades e truques de salão há apenas alguns anos para ferramentas essenciais que muitas pessoas usam em suas vidas diárias. Na semana passada, participei da Conferência de Assistentes Inteligentes em Nova York, apresentada pela Opus Research, e fiquei impressionado com o progresso que o software está fazendo em uma variedade de setores, incluindo o progresso de empresas financeiras, de seguros e médicas na construção de agentes específicos.

O fundador da Opus Research, Dan Miller, explicou que muitas das principais tecnologias, como o reconhecimento de fala, existem há mais de 20 anos. Embora ele tenha visto recentemente algumas grandes melhorias, em vez de uma revolução, ele disse "estamos em um caminho evolutivo", com muitos produtos em um continuum com diferentes capacidades. Ele observou que existem centenas de assistentes inteligentes corporativos que podem ser usados para uma conversa simples baseada em texto em inglês simples, usando um conjunto de dados fixo, e para coisas como navegar em um site ou em uma FAQ. No outro extremo do espectro, provavelmente existem apenas algumas dúzias de "aplicativos dinâmicos que parecem humanos" que são mais conversadores e atentos ao contexto.

Miller apontou para inscrições que ganharam prêmios na conferência. Julie, da Amtrak, começou como um agente interativo de serviço de telefone por resposta por voz anos atrás, mas agora evoluiu para um agente que trabalha no site para orientar os viajantes pelo Amtrak.com, com base em um agente da Next IT. A Telefonica México possui um agente chamado Nico que possui um avatar e também fornece suporte via Twitter e Facebook, com base na plataforma do AgentBot. O ING Netherlands possui o Inge, um aplicativo que permite verificar o saldo da sua conta bancária ou transferir dinheiro via voz, usando a tecnologia biométrica de voz da Nuance, para autenticar sua identidade.

Menções honrosas incluem aplicativos de assistência médica, como um aplicativo que ajuda você a escolher um plano de assistência médica. Outras aplicações que ouvi no show incluem o Domino's Pizza, que tem um aplicativo chamado Dom que permite usar a voz para pedir pizza; e BMW, que possui um agente virtual como parte de seu braço de financiamento de automóveis Up2drive.

Brett Beraneck, da Nuance, falou sobre como os avanços nas redes neurais de aprendizado profundo melhoraram coisas como o entendimento da linguagem natural e o reconhecimento de voz, e como isso agora está se unindo para permitir muito mais interesse no campo. O assistente Nina da Nuance foi um exemplo inicial e, desde então, cresceu para muitas aplicações específicas, desde sistemas interativos de resposta por voz em seguradoras até aplicativos de compras. Cada um desses aplicativos tem uma personalidade diferente, dependendo do que está tentando ajudá-lo.

Um grande recurso novo que ele discutiu foi a biometria de voz, na qual sua voz substitui uma senha. Ele falou sobre como empresas como o ING na Europa estão desenvolvendo agentes que não apenas usam reconhecimento de voz e processamento de linguagem natural, mas também estão começando a usar a voz para reconhecer a pessoa que está ligando. Ele disse que isso era mais seguro e mais natural do que uma senha tradicional.

Embora estudos recentes tenham preocupado que as gravações de voz possam enganar esses sistemas, a Nuance observou que a tecnologia de hoje inclui recursos destinados a captar anomalias da voz gravada e apontou para outros estudos que adotaram um ponto de vista diferente. Além disso, ele disse, os designers podem usar diferentes níveis de biometria de voz para diferentes funções, como usar o reconhecimento simples para verificar o saldo da conta ou solicitar que você repita uma sequência aleatória de palavras para transferências significativas de dinheiro.

A biometria de voz certamente parece estar ganhando um pouco de tração. No Simpósio Gartner da semana passada, uma sessão sobre "casos interessantes de clientes" em serviços financeiros incluiu um aplicativo Citibank que usava esse recurso.

O MyWave tem um assistente chamado Frank, que deve ser ativado por várias empresas para permitir que você interaja com elas de uma maneira mais conversacional, em vez de fazer com que cada empresa desenvolva a sua própria. Os primeiros usos incluem um banco da Nova Zelândia e um aplicativo chamado Saveawatt, projetado para ajudá-lo a escolher seu fornecedor de eletricidade.

A CEO, Geraldine McBride, explicou que a empresa está tentando criar assistentes que preenchem a lacuna entre clientes e aplicativos de serviço, com o que chamam de "relacionamentos gerenciados pelo cliente" ou CMR, uma reviravolta nos aplicativos tradicionais de CRM. Uma grande diferença, disse ela, é que o cliente é responsável por todos os seus dados, e não pelos negócios.

Outra empresa relativamente nova, a Expect Labs tem um produto chamado MindMeld que funciona como back-end para várias empresas que desejam oferecer uma interface de voz para substituir as interfaces tradicionais e lidar com perguntas e respostas. Isso pode ser usado para uma variedade de aplicativos, como assistir a programas de TV, basta perguntar o nome e fazer com que o sistema consulte vários sistemas. (O Fire TV da Amazon possui alguns desses recursos, mas não está integrado ao seu decodificador a cabo, enquanto um dos investidores do Expect Labs é a empresa de cabo Liberty Global.)

O CEO Tim Tuttle explicou que o MindMeld tende a usar o reconhecimento de fala já disponível na maioria dos dispositivos e, em vez disso, se concentra no entendimento da linguagem natural e na construção de um gráfico de conhecimento das informações disponíveis. Ele disse que a empresa está tentando escalar o sistema para incluir mais informações de várias fontes e quebrar as hierarquias de diferentes categorias de informações que fazem parte da maioria desses sistemas. Realmente entender perguntas significa ser capaz de entender a intenção em uma variedade de categorias, disse ele.

Uma coisa que ouvi de vários participantes foram as estatísticas, sugerindo que cerca de 10% de todas as pesquisas na Web são feitas agora por meio de agentes de inteligência. (O pioneiro da IA, Andrew Ng, disse que isso era verdade para a pesquisa por voz no Baidu no ano passado e várias pessoas disseram que isso agora também é verdade no Google, mas não ouvi nenhuma confirmação em primeira mão.)

Olhando para o futuro, Miller, da Opus Research, disse que ainda há muito trabalho a ser feito. A precisão básica dos sistemas tem muito espaço para melhorias, principalmente na mudança do que você diz para o que você quer dizer com o que fazer como resultado. Ele mencionou uma palestra do CEO da Xerox PARC, Stephen Hoover, na conferência, que disse que hoje os sistemas têm 90% de precisão no entendimento do que queremos dizer, mas que 10% ainda é um problema porque é o que a maioria das pessoas se lembra ao lidar com um sistema. E Miller disse que há espaço para uma melhor personalização, porque se o sistema souber com quem está falando, poderá obter melhores resultados. Por exemplo, ele observou que o Facebook sabe quem está usando o sistema porque você está logado; e disse que fazer isso com mais agentes se tornará mais importante.

É certamente uma categoria fascinante, e espero que todos nós passemos muito mais tempo conversando com nossos telefones e computadores e interagindo com agentes que não são completamente humanos. Acho essa uma das tendências mais intrigantes da computação atualmente.