> ## Documentation Index
> Fetch the complete documentation index at: https://www.vozo.ai/docs/llms.txt
> Use this file to discover all available pages before exploring further.

# Commencer

> Découvrez comment transformer un portrait en vidéo parlante en utilisant votre photo et votre entrée audio.

## Créer un projet

Pour commencer, accédez à votre **Tableau de bord** et cliquez sur **Générateur de vidéo parlante - Commencer par une photo**.

Cela ouvrira la boîte de dialogue de téléchargement, où vous pouvez faire glisser et déposer vos fichiers image ou cliquer pour télécharger.

Vous pouvez entrer de l'audio de plusieurs manières :

### Texte en parole

Si vous avez un script et souhaitez générer de la parole à partir de texte, sélectionnez cette option.

<Steps>
  <Step title="Choisissez une langue et une voix">
    Sélectionnez votre langue et votre voix désirer dans le menu déroulant. Si vous n'êtes pas satisfait des voix proposées, cliquez sur *"Choisir plus depuis la bibliothèque"* pour explorer plus d'options.

    <Tip>
      **Utiliser une voix clonée :**

      Cliquez sur *"Choisir plus depuis la bibliothèque > Voix clonée > Cloner une nouvelle voix"* et suivez les instructions pour télécharger ou enregistrer de l'audio afin de créer votre voix personnalisée.
    </Tip>
  </Step>

  <Step title="Entrer le script">
    Entrez votre script et cliquez sur le bouton de lecture pour prévisualiser.
  </Step>
</Steps>

### Télécharger de l'audio

Si vous avez déjà un fichier audio, sélectionnez cette option pour le télécharger directement.

## Prévisualiser et télécharger

Après la génération de la vidéo, prévisualisez les résultats directement sur la page du projet.

Pour télécharger la vidéo, cliquez sur le bouton **Télécharger/Exporter** dans le coin supérieur droit.

## FAQ

<AccordionGroup>
  <Accordion title="Quelle résolution et quel codage utilise la vidéo exportée ?">
    * **Résolution** : Exporté en **720p**. Le système sélectionne automatiquement le format de ratio d’aspect le plus adapté en fonction de l'image d'entrée et sort à une résolution fixe. Les résolutions possibles incluent :
      * **16:9** → 1248×704
      * **4:3** → 1120×832
      * **1:1** → 960×960
      * **3:4** → 832×1120
      * **9:16** → 704×1248
      * **21:9** → 1504×640
    * **Fréquence d'images** : Fixée à **25fps**
    * **Codage** : **H.264**
    * **Débit binaire** : Environ **1100 kb/s**, variant dynamiquement entre **1000–2000 kb/s** selon le contenu
  </Accordion>

  <Accordion title="Combien coûte la Photo parlante ?">
    Veuillez consulter la page [Utilisation des points pour les outils IA](/common/tools-points-rules#talking-photo) pour connaître les règles de tarification détaillées.
  </Accordion>
</AccordionGroup>
