Teknoloji

Google Veo ve OpenAI Sora ile Uyumlu Çalışan Yeni Video Ses Teknolojisi

Google'ın DeepMind yapay zeka laboratuvarı, videoların yanına müzik ve hatta diyalog üretebilen bir teknoloji üzerinde çalışıyor. Bu yeni video ses (V2A) teknolojisi projesinde ilerlemelerini paylaşan laboratuvar, Google Veo gibi video oluşturma araçları ve OpenAI'nin Sora'sı gibi diğer araçlarla entegre edilebilecek. DeepMind ekibi, yayınladıkları blog yazısında, sistemimizin ekran üzerinde ne olduğunu anlayabildiğini ve bu bilgiyi metin girdileriyle birleştirerek ses efektleri oluşturabildiğini açıklamış. Ayrıca, araç sessiz filmler ve ses içermeyen herhangi bir video için soundtrack üretebilecek.

DeepMind araştırmacıları, teknolojiyi videolar, ses kayıtları ve detaylı ses açıklamaları içeren yapay zeka tarafından üretilen anotasyonlar ile eğitti. Böylelikle, teknoloji belirli sesleri görsel sahnelerle ilişkilendirmeyi öğrendi. TechCrunch'ın belirttiğine göre, DeepMind ekibi, ses efektleri üretebilen bir yapay zeka aracı yayınlamak konusunda ilk olmayabilir ElevenLabs son zamanlarda bir tane yayınladı ve sonuncu da olmayacak. Ekibin belirttiğine göre, "Araştırmamız, mevcut video ses çözümlerinden farklıdır çünkü ham pikselleri anlayabilir ve metin girdisi isteğe bağlıdır."

Metin girdisi isteğe bağlı olmakla birlikte, son ürününü şekillendirmek ve rafine etmek için kullanılabilir. Örneğin istediğiniz sesleri oluşturmak için pozitif öneriler girebilir veya istemediğiniz seslerden uzaklaştırmak için negatif öneriler kullanabilirsiniz. Ekibin aşağıdaki örnekte kullandığı metin girdisi şu şekildedir "Sinematik, gerilim, korku filmi, müzik, gerilim, ortam, beton üzerinde ayak sesleri."

Araştırmacılar, mevcut sınırlamaları gibi V2A teknolojisinin var olan sınırlamalarıyla uğraşmaya devam ettiklerini belirttiler. Örneğin, kaynak videoda bozulmalar olduğunda ses kalitesinde düşüş yaşanabilir. Ayrıca, üretilen diyaloglarda dudak senkronizasyonunu geliştirmek için çalışmalarını sürdürüyorlar. Buna ek olarak, teknolojiyi "katı güvenlik değerlendirmeleri ve testler"den geçirmeye söz verdiler.

Bu teknoloji gelecekte videoları daha zengin bir deneyime dönüştürebilirken, DeepMind ekibinin belirttiği gibi, güvenlik ve performans konularında yapılan çalışmaların tamamlanması beklenmekte.

Paylaş: