Alcançando o FSD V14: O que a Li Auto precisa aprender? | Linha de Frente

Nos últimos anos, o centro de competição da indústria de direção inteligente passou por várias mudanças evidentes. No início, a comparação era sobre hardware: se usar ou não LiDAR, quantas câmeras instalar, quantos TOPS de poder computacional; depois, entrou na era dos grandes modelos, e a competição começou a se voltar para rotas como end-to-end, VLA (Vision-Language-Action), World Model. Hoje, cada vez mais empresas descobrem que apenas ter um modelo maior não é mais suficiente para formar uma vantagem geracional. O que realmente determina o limite superior começa a ser se é possível formar um ciclo fechado de iteração contínua entre modelo, dados, poder computacional e chip. É também por isso que cada vez mais montadoras estão começando a buscar o desenvolvimento próprio. A Tesla cobre quase todas as etapas, desde coleta de dados, infraestrutura de treinamento, modelo FSD até Dojo e chips próprios. Na China, seja XPeng, NIO ou Li Auto, todas estão se aprofundando cada vez mais nas camadas mais básicas. Nos modelos L8 e L9 lançados este ano, a Li Auto já está usando seu chip próprio Mach M100. Este chip, que adota uma arquitetura de fluxo de dados, é considerado pela Li Auto como uma grande direção tecnológica voltada para IA. No Mach M100, a Li Auto também executou seu modelo próprio Mach VLA. Mas, para a indústria, a questão que merece mais atenção não é "ter ou não desenvolvimento próprio", mas sim que problemas esses investimentos podem realmente resolver. Com essa dúvida, conversamos com Zhan Kun, responsável pela direção autônoma da Li Auto, e Xie Yan, responsável pelos chips. Eles falaram sobre o julgamento da Li Auto quanto à rota tecnológica da próxima geração de direção autônoma, e também explicaram a lógica de design por trás do chip próprio, do sistema de dados e da infraestrutura de IA. A seguir, um resumo da entrevista, editado: P: Para atingir o efeito do FSD V14 da Tesla no quarto trimestre, o que a Li Auto ainda precisa fazer? Zhan Kun: Acredito que alcançar o FSD tem dois níveis. Primeiro, a experiência básica, especificamente em três aspectos: segurança, eficiência e conforto, se podem atingir o mesmo nível do FSD. O FSD tem uma sensação de segurança muito forte, boa eficiência e bom conforto, essas são suas habilidades básicas. Não preciso necessariamente percorrer estradas muito difíceis, mas essas habilidades básicas podem atingir esse nível. Segundo, a capacidade, que também é muito difícil de alcançar. Por exemplo, a Tesla dá passagem para veículos especiais, tem precisão de percepção em passagens extremamente estreitas, reconhece a sinalização de policiais de trânsito, essas capacidades são muito fortes. A capacidade tem a oportunidade de atualização de arquitetura. Por que outros não têm, só a Tesla tem? Pode ser que o paradigma anterior limitava essas capacidades, por questões de arquitetura, por questões de dados. Fizemos muitas tentativas nesse nível. P: Entendo que o Mach VLA é um sistema tecnológico, não um modelo único. Por exemplo, Mind-Edge é um modelo do lado do terminal, voltado para o cockpit inteligente. No modelo de direção inteligente atual, ainda há a parte "L" (Linguagem)? Zhan Kun: Agora, as arquiteturas de direção autônoma têm uma tendência comum, que é integrar VLA (Vision-Language-Action) e World Model. A longo prazo, ninguém deixa de seguir nessa direção. Seja fazendo VLA ou World Model, os Prompts dentro deles precisam usar Linguagem. Portanto, certamente há Linguagem, a questão é como usá-la. Para a inteligência de máquinas, acredito que o Vision Based (baseado em visão) é mais razoável, é mais razoável para a compreensão espacial, para a percepção do espaço 3D, para o serviço ao ambiente. A Linguagem certamente é útil, tem valor para entender o ambiente, entender o trânsito, entender instruções, entender raciocínios complexos e tomada de decisão. A longo prazo, modelos fundamentais nativos baseados em Visão e Linguagem podem ser a tendência futura de longo prazo. Xie Yan: Se você quer ir para L3, L4, para resolver problemas mais generalizados, seu modelo precisa ter capacidade de raciocínio semelhante à humana. A importância da linguagem se tornará mais proeminente, e essa também é a razão pela qual será necessário grande poder computacional no futuro. Se ele tiver apenas Visão e Ação, mesmo com muitos dados, ao encontrar situações fora da distribuição, não saberá o que fazer. Um animal, mesmo que tenha aprendido todas as situações comuns, ao encontrar uma situação nunca vista antes, não saberá lidar com ela, não saberá qual escolha é a correta. Acreditamos que, quanto mais avançamos para L3, L4, os problemas a serem resolvidos se aproximam cada vez mais dos problemas após 90%, 95%, 98% — aqueles problemas que você nunca viu antes, que exigem que o modelo tenha capacidade de raciocínio semelhante à humana. E a fonte para obter capacidade de raciocínio e inferência semelhante à humana é o modelo de linguagem. Por exemplo, um policial fazendo um gesto, você precisa entender se ele está mandando você ir ou não ir, isso não é um problema que pode ser resolvido apenas coletando dados ou gerando dados. P: Com o salto na escala da frota da Li Auto, do ponto de vista interno, o efeito marginal dos dados diminuiu? Como definimos dados de valor? Zhan Kun: Primeiro, a quantidade de dados precisa ser grande o suficiente, a essência é esperar coletar mais Corner Cases (casos de cauda longa). Agora, muitas empresas têm várias maneiras de criar bons neural triggers (gatilhos neurais) no veículo para julgar se um cenário é difícil ou simples, e então transmitir esses dados críticos de volta. Essa também é uma das razões importantes pelas quais a Tesla é tão forte atualmente. Segundo, a qualidade precisa ser alta, principalmente referindo-se à alta qualidade do comportamento. Agora, as pessoas estão gradualmente convergindo para o paradigma end-to-end. Seja fazendo VLA, World Model ou Vision-Action, tudo é possível, mas você precisa saber a ação do comportamento. Nesse ponto, a qualidade do comportamento é muito importante, a pureza e a consistência do comportamento são importantes. Quanto à questão de saber se o efeito marginal diminuiu com o aumento da escala de dados, primeiro, desde que o modelo melhore, desde que nossa capacidade busque 100 pontos, será definitivamente uma "curva logarítmica", diminuindo gradualmente, não podendo ser linear. Nenhuma empresa de IA funciona assim. Embora, de fato, quanto mais para o final, mais lenta se torna a convergência dos dados, também esperamos, através da escala, acelerar sua velocidade. P: O Mach M100 pode rodar em diferentes cenários de IA. Daqui a cinco anos, ou olhando para duas gerações de produtos à frente, é possível que o centro de poder computacional dentro do carro da Li Auto use exclusivamente chips Mach próprios? Xie Yan: Embora haja um ditado na indústria chamado "integração cockpit-direção", acreditamos que o núcleo da integração cockpit-direção é a parte de poder computacional de IA. Se as outras partes são integradas ou não, não é tão crucial. Porque o sistema de cockpit e o sistema de direção inteligente de IA podem ser completamente independentes, mas o poder computacional de IA pode ser centralizado, tornando a eficiência de alocação muito maior. A forma final do nosso roteiro é um centro de computação de IA dentro do carro, onde todas as tarefas de IA podem ser computadas. Assim como rodar OpenClaw em um notebook, a computação de IA não está no notebook, mas no Token Provider Server. Dentro do carro é semelhante, há um Token Server. A vantagem desse Token Server: primeiro, a eficiência é muito alta. Segundo, é possível isolar diferentes tarefas umas das outras, sem interferência mútua. Por exemplo, a determinismo das tarefas de direção inteligente — seja memória ou largura de banda — pode ser garantido para não ser interferido por outras tarefas. Isso só é possível com o design conjunto de software e hardware. P: É porque o M100 é um chip de inferência de IA com arquitetura de fluxo de dados que, em comparação com os chips de direção autônoma de outros concorrentes, ele tem menor demanda por largura de banda e maior demanda por memória on-chip? Xie Yan: Nossa demanda por largura de banda será menor, mas essa não é a razão direta para projetar a capacidade de SRAM (não VRAM). Atualmente, HBM (High Bandwidth Memory) está muito popular, muitos pensam que quanto maior a largura de banda, melhor. Computação, largura de banda, SRAM, etc., todos exigem custos de transistores para serem implementados. O design final é uma escolha após consideração abrangente de custo/desempenho geral e outros fatores. Diferentes arquiteturas de design, comparadas apenas por um ou dois indicadores, não são razoáveis nem profissionais. É como uma luta de boxe: ser alto tem suas vantagens, ser pesado tem suas vantagens, mas não é um único indicador que decide a vitória ou derrota; no final, compara-se o resultado do esporte do boxe. P: Por que as soluções atuais de chips de alto poder computacional, como as da NVIDIA, XPeng e Li Auto, não fazem a integração cockpit-direção em nível de chip, enquanto a Qualcomm fez isso em chips de baixo poder computacional? Por quê? Xie Yan: Essencialmente, cockpit e direção são dois sistemas independentes. Especialmente para o avanço de L3 de alto nível para L4, a direção inteligente precisa de um sistema mais determinístico, com memória dedicada e recursos de computação dedicados. Nesse ponto, o significado da integração diminui muito. Porque os recursos não podem ser comutados em tempo real, a comutação em tempo real reduz o determinismo. Se se tornar cada vez mais uma direção exclusiva, o valor da integração não é grande — você apenas junta os chips, mas os recursos ainda são dois, não traz redução de custos e pode até afetar a eficiência. Veja os sistemas de integração cockpit-direção atuais, eles certamente ainda são separados. Hoje, não é possível rodar uma coisa e depois outra alternadamente. Se não for possível, colocar dois chips em um chip, o número de transistores pode permanecer o mesmo, apenas economizando o custo de uma embalagem. Para chips de médio e baixo custo, essa parte do dinheiro pode ser economizada, mas não muito. Minha opinião é que, quanto mais avançamos, mais a direção inteligente se torna de alto nível, e a integração cockpit-direção pode não fazer muito sentido. Se esses chips forem colocados mais próximos, em uma solução integrada de volume muito pequeno em uma placa, isso é possível. Não precisa ser necessariamente um único chip, vários chips podem ser colocados juntos. P: Quais condições são necessárias por trás do desenvolvimento próprio de chips, como volume de vendas, receita, investimento em P&D? Atualmente, a iteração da direção autônoma é muito rápida. Para que o chip itere continuamente, que condições são necessárias? Xie Yan: O investimento inicial em chips é realmente grande, podendo ser vários bilhões por ano. A primeira condição é atingir uma certa escala de receita. Para uma montadora, com receita anual acima de 100 bilhões, e investimento em P&D de pelo menos 10%, isso dá dezenas de bilhões a centenas de bilhões. Investir dinheiro anualmente em P&D de chips é viável. A segunda condição é que o problema que você resolve com o desenvolvimento do chip deve tornar seu produto mais capaz. Muitos dizem que os chips precisam de um grande volume de embarque para serem viáveis. Na verdade, o custo do chip está relacionado à sua área. O chip de direção inteligente em um carro, por exemplo, o Livis usa 2 chips Mach M100, totalizando 800 milímetros quadrados. Um chip de smartphone topo de linha tem cerca de 100 milímetros quadrados. Portanto, o chip de direção inteligente de um carro equivale à área de chip de 8 smartphones. Calculando assim, dezenas de milhares de carros exigem uma área de wafer muito grande, o que pode diluir completamente o custo. Portanto, o custo não pode ser medido apenas pelo número de chips. P: Qual foi a dificuldade do compilador de fluxo de dados dinâmico? Quanto tempo levou para superá-la? Xie Yan: Antes da tape-out, e até mesmo durante o design, já começamos o trabalho do compilador. Antes da tape-out, já havíamos executado muitos modelos. O fluxo de dados é uma arquitetura completamente diferente. O problema que ele precisa resolver é muito semelhante ao problema que supercomputadores ou clusters de computadores em larga escala precisam resolver — quando a escala se expande para centenas de milhares de computadores, milhões de núcleos, e eles se comunicam e cooperam entre si, você não pode ter um administrador central para gerenciar centenas de milhares de núcleos. O método de escalonamento da arquitetura tradicional de von Neumann não é viável nessa escala. Este é um problema de escalonamento paralelo em larga escala.