Spoločnosť Google integrovala do svojej aplikácie Gemini nástroj na generovanie hudby s názvom Lyria 3. Funkcia, ktorá je momentálne dostupná v beta verzii, umožňuje používateľom vytvárať 30-sekundové zvukové stopy dvoma spôsobmi.
Prvým je zadanie textového príkazu (promptu), v ktorom používateľ špecifikuje žáner, náladu či tému. Druhým spôsobom je nahranie fotografie alebo videa, na základe ktorého umelá inteligencia analyzuje obsah a vytvorí k nemu adekvátny hudobný podklad.
Každá vygenerovaná skladba je pre jednoduchšie zdieľanie doplnená o vlastný obal, o ktorého vizuál sa stará obrazový model Nano Banana.
Inovácie v modeli Lyria 3
V porovnaní s predchádzajúcimi verziami prináša Lyria 3 tri hlavné technologické zmeny pre koncového používateľa:
Automatické generovanie textov: Používateľ nemusí písať vlastné slová piesne, model ich vytvorí na základe zadanej témy.
Rozšírená kontrola parametrov: Systém umožňuje lepšie prispôsobenie hudobného štýlu, vokálov a celkového tempa.
Komplexnejší zvuk: Výsledné stopy dosahujú vyššiu úroveň realizmu a zložitejšiu hudobnú štruktúru.
Okrem aplikácie Gemini sa model Lyria 3 implementuje aj do nástroja Dream Track na platforme YouTube, kde pomôže tvorcom obsahu s úpravou a generovaním zvukových stôp pre formát Shorts.
Bezpečnosť a overovanie AI obsahu
Všetky hudobné stopy vytvorené v Gemini sú povinne označené technológiou SynthID. Ide o vodoznak integrovaný priamo do audia, ktorý slúži na identifikáciu obsahu vygenerovaného umelou inteligenciou. Gemini zároveň zavádza funkciu overovania – používatelia môžu do aplikácie nahrať audiosúbor a systém vyhodnotí, či obsahuje vodoznak SynthID.
Z hľadiska autorských práv je model navrhnutý tak, aby nevytváral presné kópie existujúcich umelcov. Ak používateľ v zadaní uvedie meno konkrétneho hudobníka, systém tento údaj využije len ako všeobecnú inšpiráciu pre vytvorenie podobnej nálady alebo štýlu. Nástroj taktiež obsahuje filtre na kontrolu výstupov voči už existujúcemu obsahu a chráneným dielam.
Dostupnosť funkcie
Generovanie hudby je dostupné pre používateľov starších ako 18 rokov. V počiatočnej fáze podporuje osem jazykov: angličtinu, nemčinu, španielčinu, francúzštinu, hindčinu, japončinu, kórejčinu a portugalčinu s plánom na ďalšie rozširovanie.
Nasadzovanie prebieha najprv vo webovom rozhraní pre desktop, pričom do mobilnej aplikácie sa funkcia dostane v najbližších dňoch. Používatelia s platenými programami (napríklad v rámci môjho režimu Paid tier pre predplatiteľov) budú mať k dispozícii vyššie limity na generovanie.

