Startup chinesa de IA visa Sora da OpenAI com lançamento de ferramenta de imagem para vídeo
Na foto aqui está um clipe gerado por IA do site da Vidu. A ferramenta pode criar vídeos a partir de prompts de texto ou imagem.
Evelyn Cheng | CNBC
PEQUIM – A Shengshu Technology, com sede em Pequim, disse na quarta-feira que sua ferramenta de conversão de texto em vídeo alimentada por inteligência artificial, Vidu, agora será capaz de gerar vídeos combinando imagens.
O Vidu já permite que usuários em todo o mundo criem clipes de 8 segundos com base em instruções escritas. Enquanto OpenAI – o criador do ChatGPT – em fevereiro revelou que seu modelo de IA Sora poderia gerar vídeos de um minuto a partir de texto, mas ainda não divulgou isso publicamente.
O novo recurso de IA do Vidu pode combinar três imagens – como uma camisa, uma pessoa e uma motocicleta – em um vídeo da pessoa vestindo a camisa e dirigindo a motocicleta por uma cena, disse Shengshu.
Outras plataformas afirmam que podem transformar texto ou imagens em vídeos usando IA, mas a qualidade do resultado varia. A inovação que Shengshu afirma é a capacidade de pegar três imagens exclusivas e integrá-las com consistência visual em um vídeo gerado por IA.
“Desde muito cedo identificamos [visual consistency] como o problema e queria resolvê-lo bem”, disse Fan Bao, diretor de tecnologia da Shengshu, em mandarim, traduzido pela CNBC.
O Vidu foi lançado em abril e sua capacidade de transformar duas fotos de perfil em vídeos realistas de pessoas se abraçando se tornou viral no TikTok.
O gerador de vídeo de IA já está ganhando dinheiro com anunciantes, animadores e outras empresas, disse o cofundador e CEO da Shengshu, Jiayu Tang, em mandarim, de acordo com uma tradução da CNBC. Ele disse que as taxas de uso mensais por cliente podem variar de 100.000 yuans a 1 milhão de yuans (US$ 13.871 a US$ 138.711).
Para resolver questões de direitos autorais, Tang disse que uma empresa pode assinar um acordo com um artista que permita à IA imitar o estilo de pintura do artista para um anúncio. Ele disse que não viu casos legais significativos sobre o uso de imagens pelos consumidores.
Tang acrescentou que o Vidu não permite que o público gere conteúdo usando imagens de celebridades ou indivíduos “sensíveis”. Ele disse que a ferramenta de IA também proíbe nus e imagens violentas. Quanto às fotos pessoais, Tang disse que a Vidu destrói os dados de acordo com a regulamentação geral de proteção de dados – uma referência global.
A Shengshu foi fundada no ano passado com patrocinadores como Baidu Ventures, Ant Group, afiliado do Alibaba, a startup chinesa Zhipu AI, Qiming Venture Partners e a cidade de Pequim, de acordo com o PitchBook.
Tang disse que a IA da Vidu funciona em servidores em nuvem alugados na China e no exterior.