Mais dados nem sempre são melhores. Quando um sistema automatizado precisa tomar uma decisão rapidamente, você quer que ele tenha o conjunto mais enxuto possível de dados relevantes necessários para fazer a escolha correta. Analisar mais coisas apenas o torna mais lento. Você pode ver isso nos humanos. O campo da inteligência artificial está sempre copiando o dever de casa da evolução, e por boas razões. Por que descartar todos aqueles milhões de anos de resultados emergentes e tentar começar do zero? Os humanos na verdade não têm cinco sentidos (mais como cerca de 22), mas uma coisa que não vemos muito nesses sentidos é sobreposição. Parece que o processo evolutivo acertou na noção, repetidamente, de que é melhor ajustar seus olhos para o que você precisa ver, em vez de desenvolver dois ou três tipos diferentes de olhos para olhar a mesma coisa. Claro, abordagens multicanal não são impossíveis, e talvez um sistema apenas com lidar possa ser feito para funcionar. Mas a questão sobre usar câmeras que são análogas à visão humana é que você pode se basear em tudo o que sabemos sobre a visão humana. E se você está usando isso para dirigir carros, então você pode se basear em tudo o que sabemos ou podemos descobrir sobre como os humanos dirigem carros. Se você é qualquer tipo de engenheiro, isso é uma decisão óbvia, e, apesar do que Lexxie possa pensar, ou fingir pensar enquanto as câmeras estão gravando, Elon Musk é 100% engenheiro e muito pouco mais, e qualquer outro engenheiro pode perceber isso apenas pela forma como ele fala. Lidar é bom para muitas coisas, provavelmente incluindo espaçonaves, mas quando você coloca isso em um carro, é apenas uma admissão pública de que você não tem as habilidades, ou simplesmente não se deu ao trabalho, de desenvolver a capacidade de IA para apontar uma câmera para algo e realmente caracterizar o que você está olhando.
Whole Mars Catalog
Whole Mars Catalog25/08, 13:59
Não tenho certeza se isso faz sentido. É verdade que Elon é muito mais inteligente do que eu, mas aqui estão meus 2 centavos: Não acho que a fusão de sensores seja impossível, apenas torna o sistema muito mais complicado. Eu posso ver um objeto, tocá-lo, cheirá-lo, e meu cérebro pode fundir tudo isso naturalmente. Não acho que a fusão de sensores seja inerentemente menos segura, mas aumenta a complexidade do sistema e o número de pontos de falha. O principal problema da Tesla era que seu radar interno tinha uma resolução muito baixa. A Waymo ainda não consegue dirigir em rodovias com clientes, em parte devido ao alcance dos sensores LIDAR e à calibração para condução em alta velocidade. E por causa do risco adicional de altas velocidades. Mas eles estão realmente operando em rodovias agora, sem ninguém no banco do motorista, e permitindo que os funcionários brinquem com isso. Portanto, não acho justo dizer que eles não conseguem dirigir em rodovias, eles apenas não se sentem confortáveis permitindo que os clientes usem isso ainda. Meu argumento favorito para explicar por que o aprendizado profundo supera uma abordagem de múltiplos sensores é que o conjunto de dados em grande escala que você pode construir com uma única modalidade de sensor de baixo custo é extremamente poderoso para aumentar a precisão preditiva do modelo. Você pode ter todos esses sensores sofisticados, mas se isso significa que seu conjunto de dados é uma fração do tamanho, diversidade, etc., um modelo apenas de visão pode realmente superar em precisão preditiva e, assim, segurança. Concordo com ele que apenas a visão é melhor, mas não acho que o cerne disso seja a fusão de sensores.
21,36K