Lar O negócio 7 dicas para o sucesso do aprendizado de máquina

7 dicas para o sucesso do aprendizado de máquina

Índice:

Vídeo: Forneça soluções de Aprendizagem de Máquina: Dicas de Carreira em Inteligência Artificial #1 (Outubro 2024)

Vídeo: Forneça soluções de Aprendizagem de Máquina: Dicas de Carreira em Inteligência Artificial #1 (Outubro 2024)
Anonim

A primeira parte do nosso Guia de negócios para aprendizado de máquina (ML) detalhou como o conceito abrangente de ML é muito mais matizado em um ambiente de negócios. As estratégias mais eficazes olham para o ML em um sentido prático, empregando técnicas complexas de aprendizado profundo e menos intensivo de "aprendizado barato" para otimizar os processos corporativos e obter insights tangíveis de business intelligence (BI).

O objetivo da implantação do ML em seus aplicativos de negócios é melhorar seus resultados ou pressionar a vantagem competitiva da sua empresa. Porém, no esquema maior da sua organização, aproveitar ao máximo o tempo e os recursos investidos nesse processo vai muito além dos algoritmos. Os tomadores de decisão de TI em seus negócios precisam garantir que tudo o que considere a sua imple- mentação de ML - desde os dados e a logística até a forma como você está interagindo com os usuários - trabalhem juntos de forma coesa para maximizar a eficácia.

Ted Dunning, Ph.D., é o principal arquiteto de aplicativos da MapR, uma empresa de software corporativo que oferece várias distribuições de Big Data e ferramentas de gerenciamento de dados. Dunning também foi co-autor de dois livros sobre o que ele chama de "Aprendizado prático de máquina" e desenvolveu tecnologias de ML para várias empresas ao longo dos anos, incluindo o sistema de detecção de fraudes do ID Analytics (comprado pela LifeLock) e o software Musicmatch Jukebox, que mais tarde se tornou o Yahoo Music. Atualmente, ele também atua como vice-presidente de incubação da Apache Software Foundation.

Dunning observou o espaço de ML evoluir ao longo de décadas e aprendeu muito sobre o que funciona e o que não funciona em um ambiente de negócios prático. Abaixo, Dunning apresenta sete práticas recomendadas a serem seguidas ao desenvolver soluções de negócios baseadas em ML.

1. Não esqueça a logística

ML bem sucedido não é apenas sobre a escolha da ferramenta ou algoritmo certos. Dunning disse que você também precisa descobrir qual abordagem é adequada e projetá-la para a situação específica que você está abordando. Por exemplo, Dunning falou sobre ML em uma campanha de marketing on-line, em oposição a cenários muito mais complicados, como algoritmos que guiam um carro autônomo. Gastar seus recursos para uma melhoria incremental no algoritmo vale a pena, mas no cenário de marketing, você veria um retorno muito melhor ao otimizar toda a logística ao seu redor.

"Muitas vezes, para as empresas, é a logística, não o aprendizado, que lhe dá valor. Essa é a parte em que você deve gastar seu tempo e recursos", disse Dunning. "Ajustar o algoritmo daria a você uma pequena melhoria. Mas ajustar esses dados, a GUI e a maneira como você ouve e se envolve com seus usuários pode facilmente oferecer 100% de melhoria. Gastar tempo aprimorando o algoritmo vale uma fração, pois tanto para as empresas quanto para os usuários."

Para ilustrar esse ponto, Dunning explicou como ele construiu um modelo para identificar fraudes em aplicativos (abrir contas falsas com identidades roubadas) no banco de dados de clientes da empresa. O modelo que ele construiu obteve ótimos resultados, mas Dunning percebeu que pesava muito o sexo do candidato.

Acabou que a logística estava errada. Da maneira como o processo de inscrição funcionou, o candidato apenas preencheu seu sexo depois de já ter se tornado cliente e ter passado por várias etapas de triagem para filtrar os fraudadores. Então, usando o campo de gênero, o modelo de ML estava enganando a logística de todo o processo de fraude. Isso não tem nada a ver com o algoritmo, e tudo a ver com a forma como a empresa estava obtendo seus dados em primeiro lugar.

2. Cuide dos seus dados

Dunning está cheio de dicas cativantes de sabedoria. Depois de começar com "é a logística, não o aprendizado", ele disse que a outra metade dessa idéia é "são os dados, não os algoritmos". Grande parte da garantia de que seus algoritmos de ML estão fornecendo informações valiosas é garantir que você esteja fornecendo os dados corretos. Dunning disse que, se você não está obtendo o resultado desejado, é mais frequente o fato de não estar usando os dados corretos.

"As pessoas se envolvem e se envolvem com o ego a algoritmos específicos, mas hoje em dia, por causa das ferramentas disponíveis, todos e sua mãe podem e estão apresentando todo tipo de novo algoritmo", disse Dunning. "Os dados são muito mais importantes e darão muito mais força do que ajustar infinitamente seus algoritmos. Se você está trabalhando em um problema difícil, como reconhecimento de fala ou visão computacional, é uma coisa. Mas esse é um campo orientado a dados." Na maioria dos cenários, você se beneficiará muito mais com o ajuste de quais dados você está obtendo e com a alteração da pergunta ".

Foi o que Dunning fez em meados dos anos 2000 ao criar um mecanismo de recomendação de vídeo em uma empresa chamada Veoh Networks. A equipe estava trabalhando para identificar pares de vídeos gerados por usuários nas quais as pessoas clicaram mais do que o esperado, mas o algoritmo não estava funcionando. Eles estavam pensando em termos de música, onde os usuários conhecem seus artistas e músicas favoritos pelo nome. Então, eles mudaram a questão, aprimorando a interface do usuário sem tocar no próprio algoritmo.

"Nos vídeos gerados por usuários, ninguém sabe que os artistas e muitos vídeos tinham títulos com muitos spam para obter mais visualizações. Dar um ciclo em ajustes no algoritmo nunca nos daria bons resultados", disse Dunning. "O que fizemos foi alterar a interface do usuário para emitir um sinal de sinalizador a cada 10 segundos. Descobrimos que, se usássemos o sinalizador em vez de cliques para os dados brutos do recomendador, obtivemos resultados impressionantes. O aumento dessa mudança foi várias melhoria de cem por cento no envolvimento devido a recomendações, sem alterações algorítmicas ".

3. Algoritmos não são balas mágicas

As implementações de ML prosperam com tentativa e erro contínuos. Não importa quão bons sejam seus algoritmos, se seu sistema estiver interagindo com seres humanos, ele precisará ser ajustado ao longo do tempo. Dunning enfatizou que as empresas devem constantemente medir a eficácia geral de sua implementação e identificar as mudanças e variáveis ​​que a estão melhorando e piorando. Isso pode soar banal, mas Dunning disse que, apesar de parecer óbvio, poucas pessoas o fazem ou o fazem bem.

"Muitas pessoas querem implantar um sistema ou tomar alguma ação e querem que seu algoritmo funcione perfeitamente para sempre", disse Dunning. "Nenhum algoritmo será uma bala mágica. Nenhum design de interface com o usuário permanecerá para sempre. Nenhum método de coleta de dados nunca será substituído. Tudo isso pode e vai acontecer, e as empresas precisam estar vigilantemente medindo, avaliando e reavaliando como seus sistema funciona ".

4. Use um conjunto de ferramentas diversificado

Existem dezenas de ferramentas de ML disponíveis, muitas das quais você pode usar gratuitamente. Você tem bibliotecas populares de estruturas de código-fonte aberto, como Caffe, H20, Shogun, TensorFlow e Torch, e bibliotecas ML em vários projetos da Apache Software Foundation (ASF), incluindo Mahout, Singa e Spark. Existem também opções baseadas em assinatura, incluindo Amazon Machine Learning, BigML e Microsoft Azure Machine Learning Studio. A Microsoft também possui um Cognitive Toolkit gratuito.

Existem inúmeros recursos disponíveis. Dunning conversou com inúmeras empresas, cientistas de dados e profissionais de ML e sempre pergunta a eles quantas estruturas e ferramentas diferentes eles usam. Em média, Dunning disse que a maioria disse que usa um mínimo de 5-7 ferramentas e geralmente muito mais.

"Você não pode ficar colado a uma ferramenta. Você precisará usar várias e, como tal, é melhor criar seu sistema de uma maneira que seja agnóstica", disse Dunning. "Qualquer pessoa que tente convencê-lo de que essa ferramenta é a única de que você precisará estará vendendo uma lista de mercadorias.

"Algo pode acontecer na próxima semana que perturba o carrinho de maçã e, à taxa de inovação que estamos vendo, isso continuará acontecendo por mais cinco a 10 anos, pelo menos", continuou Dunning. "Veja um exemplo de aprendizado barato, em que talvez você esteja reutilizando um classificador de imagem existente para analisar imagens em um catálogo. Isso é profundo aprendizado com a visão computacional. Mas existem ferramentas por aí que empacotaram tudo. Você precisa para medir, avaliar e vacilar entre diferentes ferramentas, e sua infraestrutura precisa ser acolhedora para isso."

5. Experimente o aprendizado híbrido

Dunning disse que você também pode misturar aprendizado barato e profundo em algo híbrido. Por exemplo, se você usar um modelo de visão computacional existente e reconstruir as poucas camadas superiores em que uma decisão estiver sendo tomada, poderá cooptar uma estrutura existente para um caso de uso totalmente novo. Dunning apontou para uma competição Kaggle na qual os concorrentes fizeram exatamente isso; eles pegaram um conjunto de dados e escreveram um novo algoritmo no topo para ajudar um computador a distinguir gatos de cães.

"Distinguir gatos e cães é algo muito sutil para um algoritmo de ML. Pense na lógica: os gatos têm orelhas pontudas, mas os pastores alemães também. Os cães não têm manchas, exceto os dálmatas, etc. Isso pode ser bem difícil de reconhecer. por si só ", disse Dunning. "O cara que ganhou desenvolveu um sistema que fez isso com 99% de precisão. Mas fiquei mais impressionado com a pessoa que ficou em terceiro. Em vez de construir do zero, ele pegou um programa de reconhecimento de imagem existente de uma tarefa diferente, tirou o camada superior e inseriu um classificador simples. Ele deu alguns exemplos e logo foi 98% preciso na diferenciação entre gatos e cães. Todo o processo levou o sujeito três horas ".

6. Barato não significa ruim

Apesar da conotação aberta, Dunning disse que aprendizado barato não significa aprendizado ruim. A quantidade de tempo que você gasta em uma implementação de ML não se correlaciona diretamente com seu valor comercial. A qualidade mais importante, disse ele, é garantir que o processo seja repetível e confiável. Se a empresa conseguir isso sem investir uma quantidade indevida de recursos, isso será ainda melhor.

"Barato não significa ruim. Se funciona, funciona. Se é barato e funciona, isso é ótimo. Mas o esforço que você faz para construí-lo não define o valor. Isso é uma falácia de soma-custo", disse Dunning. "O que define o valor é como ele melhora os negócios. Se isso melhora os lucros ou diminui os custos ou melhora a sua situação competitiva. É o efeito, não o esforço".

7. Não chame isso de AI

Dunning enfatizou que, ao falar sobre essas técnicas, as empresas devem usar a terminologia precisa: ML, visão computacional ou aprendizado profundo. Tudo isso tende a se enquadrar no termo genérico "inteligência artificial", mas, para Dunning, a definição de IA é simplesmente "coisa que ainda não funciona".

"A melhor definição que eu já ouvi sobre IA é que são as coisas que ainda não conseguimos explicar. As coisas que ainda não descobrimos", disse Dunning. "Toda vez que temos algo para trabalhar, as pessoas dizem 'Ah, isso não é IA, é apenas software. É apenas um mecanismo de regras. É realmente apenas regressão logística'." Antes de descobrirmos algo, chamamos de AI. Depois, sempre chamamos de outra coisa. De muitas maneiras, a IA é melhor usada como uma palavra para a próxima fronteira e, na AI, sempre haverá uma próxima fronteira. para onde estamos indo, não para onde já alcançamos."

7 dicas para o sucesso do aprendizado de máquina