• Forme correcte 
  • Forme fautive   
  • Exemple            
Guide des difficultés de rédaction en musique (GDRM)

Guides > Numérisation de documents, Google Livres, Google Traduction

La présente page explique en détail comment créer des fichiers PDF avec une photocopieuse, leur donner une mise en forme typographique convenable et les rendre facilement utilisables grâce à la reconnaissance optique de caractères. Elle montre ensuite comment utiliser Google Livres (Google Books) pour repérer des passages dans des livres numérisés et enregistrer de tels textes comme texte brut ou document PDF et comment se servir de Google Traduction (Google Translate).

La section sur l'utilisation de Google Traduction aborde également les techniques permettant de traitement de la documentation en russe. Il existe divers outils relatifs à la saisie et à la translittération des caractères cyrilliques.

Diverses techniques relatives à la photocopie et à la préparation de fichiers PDF sont proposées ailleurs.

Liens PDF encodés : Un lien vers un fichier PDF copié en faisant un clic droit sur un résultat proposé par Google, par exemple avec Internet Explorer, peut être soit très long et incompréhensible, soit impossible à coller dans un texte destiné à l'Impression. Le problème vient du fait que les caractères ://, entre autres, utilisent l'encodage-pourcent en les transformant en %3A%2F%2F. La solution consiste à coller le lien dans la page URL Decoder/Encoder et cliquer sur Decode, puis à en localiser le début (http:// ou https://), sélectionner jusqu'à inclure .pdf et copier la partie essentielle.

Lien avant décodage : http://www.google.ca/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiwnPzViZXuAhXpUd8KHWRvAgM4UBAWMAJ6BAgCEAI&url=http%3A%2F%2Fetheses.bham.ac.uk%2F3357%2F1%2FBertoglio_12_PhD.pdf&usg=AOvVaw0v81VZ9bwr-2lDRGfVJeyv

Lien après décodage : http://etheses.bham.ac.uk/3357/1/Bertoglio_12_PhD.pdf

Dans Chrome, il suffit de faire un clic droit sur le lien Google pour le copier. Si le fichier a déjà été téléchargé, il faut taper Ctrl+J pour afficher la liste des fichiers téléchargés, puis faire un clic droit sur le lien et le copier.

Numérisation de documents

Il est possible de numériser des documents tels que des feuilles mobiles ou des livres de deux façons, l'une gratuite, l'autre payante:

Seule la procédure faisant appel à une photocopieuse est décrite ci-dessous. Il s'agit de techniques permettant de numériser des documents sans disposer d'appareils aussi performants que ceux utilisés par les bibliothèques de recherche pour réaliser des reproductions de haute qualité.

Il est essentiel de faire quelques essais avant de se lancer dans une longue numérisation.

Mode : Choisir le mode Numérisation (par opposition à Copie).

Paramètres : Choisir l'orientation (portrait ou paysage), le format (PDF ou JPG), la résolution et le format de papier.

Orientation : Si le volume est de format réduit (une page maximum au format lettre ou A4, par exemple), la numérisation est facile : déplacez le livre vers la droite pour photographier les rectos. Dans le cas d'un plus grand format, comme certaines partitions, il faut photographier au format paysage, donc en plaçant les rectos dans un sens et les versos dans l'autre (tête-bêche). Dans ce cas, pour un recto (page impaire), appuyez le côté droit de la page contre la partie éloignée de la vitre; pour un verso (page paire), c'est le côté gauche de la page. Déplacer et, surtout, réorienter le volume peut être très délicat s'il est fragile et que sa reliure pourrait facilement céder.

Format de papier : Les photocopieuses ne permettent souvent pas d'utiliser la fonction de réduction ou d'agrandissement lorsque l'on souhaite numériser plutôt que simplement copier. Dans ce cas, sélectionnez un format de papier plus grand, comme 11 × 17 po ou A3, puis utilisez la version complète Adobe Acrobat (par opposition à Acrobat Reader, dont les fonctions sont limitées) pour éliminer l'excédent.

Nombre de pages : Ne numérisez pas trop de pages à la fois afin d'éviter tout blocage mécanique ou logiciel de la photocopieuse. Les fichiers pourraient être incomplets ou l'opération pourrait être simplement annulée sans avertissement, entraînant l'absence de remboursement et la perte du travail déjà effectué. Le risque de mauvais fonctionnement est proportionnel à la résolution choisie et au nombre de pages.

Masquage : Si le format du volume et la qualité de la reliure le permettent, fermez le couvercle pour éviter la création de deux larges bandes noires lors de la numérisation, ou du moins pour réduire leur taille. Vous pouvez aussi coller des feuilles blanches sur la vitre à l'aide de ruban adhésif. Cette opération est relativement peu importante puisqu'il faudra les éliminer autant que les noires; cependant, il peut être préférable de se retrouver avec de légers reliquats de blanc plutôt que de noir après avoir utilisé la procédure décrite ci-dessous sous Rognage.

Pages blanches : Numérisez toutes les pages, y compris celles qui sont blanches, afin d'obtenir une reproduction fidèle. Si le document est numérisé en noir et blanc, vous pouvez insérer ces pages blanches lors d'une étape ultérieure.

Vérification : Vérifiez les fichiers sur votre téléphone alors que vous trouvez encore à la photocopieuse de façon à pouvoir numériser à nouveau les pages oubliées ou mal reproduites. Cette précaution est d'autant plus importante si vous perdez ensuite l'accès à la source. Par prudence, évitez de créer des fichiers trop lourds afin de parer au cas où l'appareil n'arriverait pas à compléter le processus ou quitterait prématurément, vous forçant ainsi à reprendre le travail en payant une deuxième fois.

Noms de fichiers : Assurez-vous que les noms de fichiers obéissent à un ordre alphabétique ou numérique correct, en particulier s'ils comportent des dates, qui devraient toujours suivre le format aaaa-mm-jj. Donnez toujours des noms de fichiers commençant par un préfixe numérique en ajoutant des zéros non significatifs dans la limite de la longueur maximale qui s'applique au projet, par exemple 001-..., 002-..., etc. Ceci permettra d'éviter une séquence comme 1, 11, 2, 22, 3,... Les photocopieuses génèrent habituellement des noms de fichiers comportant la date et l'heure.

Assemblage : Combinez les fichiers dans Adobe Acrobat en vous assurant qu'ils sont dans l'ordre souhaité, puis enregistrez le résultat. Sous Fichier, sélectionnez Créer, puis Combiner les fichiers en un seul fichier PDF. Vérifiez à nouveau l'ordre des fichiers avant de confirmer l'opération et de modifier au besoin; il est toutefois possible de déplacer des pages dans un fichier enregistré.

Effectuez les opérations suivantes sur une copie du document, car il est facile de faire des erreurs.

Rognage : Éliminez les parties des pages qui dépassent de la zone reproduite en essayant de ne pas laisser de bandes noires, mais en veillant à ne rien tronquer.

Rotation des pages : Fatese deux opérations de rotation dans le cas d'un document numérisé en format paysage.

Reconnaissance optique de caractères : Si le PDF obtenu n'est pas consultable, sous Outils, sélectionnez Reconnaissance du texte, puis Dans ce fichier. Sous Pages, sélectionnez Toutes. Si la langue affichée n'est pas la bonne, cliquez sur Modifier et sélectionnez la langue souhaitée sous Langue ROC principale. L'opération peut prendre quelques minutes lorsque le nombre de pages est très élevé, mais le résultat est habituellement très bon. Il est également possible de rendre consultable tout PDF qui ne l'est pas, qu'il ait été numérisé ou non.

Un texte numérisé sous forme de série d'images assemblées en un seul fichier PDF ne permet pas d'effectuer une recherche ni de sélectionner des passages pour faire un copier-coller. Il est toutefois possible de soumettre le document à la reconnaissance optique pour le rendre utilisable.

Utilisation de Google Livres

Recherche

Google Livres permet de repérer des passages provenant de livres numérisés et d'avoir accès, dans bien des cas (du moins pour de nombreux ouvrages dans le domaine public), à l'ensemble du contenu. On peut rechercher une phrase ou une portion de phrase dont on ignore l'auteur ou la source et identifier cette dernière, enregistrer le texte, faire si nécessaire une reconnaissance optique pour permettre la recherche plein texte, puis enfin le coller dans Google Traduction.

Lorsqu'on copie une source ancienne à partir de Google Livres, par exemple, un texte en allemand composé en Fraktur, on doit porter attention à la présence du s long (Wikipédia), qui pourra apparaître sous la forme ſ (U+017F), comme dans Minneſänger, et lui substituer le s courant (Minnesänger).

Le recours à Google Livres peut être utile pour consulter des portions d'ouvrages dont la numérisation n'est que partielle, comme c'est le cas pour les livres récents. Les quelques passages offerts peuvent suffire à résoudre un problème de recherche, et on peut éviter une commande par prêt entre bibliothèques.

Tapez une section plus ou moins longue du texte à rechercher dans Google Livres (ou dans la page habituelle de Google), par exemple « Ganz anders als die Stellung des Gelehrten zur Sache ist die des Künstlers », en l'encradrant de guillemets (dactylographiques) pour cibler avec précision. (Essayez à nouveau en réduisant le nombre de mots si la recherche ne donne aucun résultat.) Google Livres fournit un lien vers la p. 4 de Zur Musik : Sechzehn Aufsätze (1892) de Philipp Spitta. Cliquez sur le lien pour afficher une portion de la page où la phrase recherchée apparaît en jaune.

Enregistrement de textes (texte brut ou PDF)

Ouvrez le menu en cliquant sur la roue d'engrenage dans le coin supérieur droit et sélectionnez Texte brut pour télécharger le document ou encore Télécharger le PDF. Les textes en allemand composés en Frakturschrift ouverts en format Texte brut peuvent comporter de nombreuses erreurs, comme des lettres manquantes ou mal identifiées, qu'il faudra corriger.

Tapez Ctrl+F pour rechercher dans le texte ou Ctrl+Maj+F pour afficher toutes les occurrences d'un mot dans le fichier. Les deux types de fichiers PDF sont consultables.

Sélectionnez le texte voulu et collez-le dans un traitement de texte comme texte brut pour éviter d'ajouter des codes ou des styles de mise en page qui compliqueraient inutilement la mise en page, que l'on souhaitera la plus simple possible. Dans Microsoft Word, cliquez sur Coller, puis Collage spécial et sélectionnez Texte unicode sans mise en forme.

Mise en forme typographique : Affichez les marques de mise en forme (Ctrl+Maj+* dans Microsoft Word). Si chaque ligne se termine par une marque de paragraphe (), rétablissez le renvoi automatique à la ligne (angl. word wrap) en tapant Ctrl+H pour afficher la boîte de dialogue Recherche et remplacer. Sous Remplacer | Spécial, sélectionnez Marque de paragraphe (ou tapez simplement ^p sous Rechercher); assurez-vous que la boîte d'entrée de texte sous Remplacer est vide; cliquez sur Remplacer tout.

Dans Corel WordPerfect, il suffit de remplacer toutes les occurrences du code [HRt] par une espace, ou d'utiliser la macro LineWrap.wcm sur le site Barry MacDonnell's Toolbox for WordPerfect. La macro a l'avantage de protéger les paragraphes séparés par une ligne blanche.

Complétez la mise en forme en faisant les opérations suivantes de recherche et remplacement :

Utilisation de Google Traduction

Procédure standard

Sélectionnez et copiez la portion de texte à traduire.

Ouvrez Google Traduction et sélectionnez les langues de départ et d'arrivée , dans l'onglet Texte, puis collez le texte dans la fenêtre de gauche à raison d'un maximum de 5 000 caractères à la fois.

Copiez le résultat apparaissant dans la fenêtre de droite en cliquant sur la première des trois icônes dans le coin inférieur droit, puis collez-le dans un fichier texte. La qualité et la précision de la traduction sont très variables, mais suffisantes pour permettre de comprendre le texte; il est souvent nécessaire d'apporter des corrections pour une utilisation plus poussée.

Vous pouvez aussi sélectionner un document sur votre disque dur (taille maximale : 1 Mo) en choisissant l'onglet Documents.

Si nécessaire, utilisez la procédure détaillée ailleurs sur cette page pour rétablir le renvoi automatique à la ligne et donner au texte une certaine allure typographique.

Pour des traductions souvent meilleures, mais dans avec un choix de langues moins étendu, utilisez DeepL.

Translittération et traduction du russe

À partir de la translittération

Sélectionnez et copiez le texte russe présenté en translittération, par exemple dans une notice fournie par une base de données comme WorldCat : transkript͡sii dli͡a fortepiano (transcription pour piano). La procédure varie selon la disposition des deux langues dans Google Traduction, laquelle peut être inversée en cliquant sur la flèche double () entre les deux fenêtres (Intervertir les langues). Google peut jouer avec la casse de la lettre initiale, auquel cas il faudra corriger le problème.

Français-Russe
Russe-Français

À partir d'un document papier en russe

Si vous travaillez à partir d'un document papier comme source, saisissez un à un les caractères cyrilliques, par exemple Фантазия и фуга, au moyen du clavier qui s'affiche en cliquant sur la flèche dans le coin inférieur droit de la fenêtre Russe. Ce processus est fastidieux, surtout si l'on ne parle pas le russe, mais on peut acquérir assez rapidement de l'aisance. La translittération (Fantaziya i fuga) apparaît en gris dans la fenêtre Russe et la traduction (Fantaisie et Fugue) dans la fenêtre de droite. Les trois versions peuvent maintenant être copiées et collées dans un texte.

Si la source est en écriture cursive ou en italique, certains caractères cyrilliques seront différents de ceux écrits en caractères droits; il faut alors trouver l'équivalent droit.

Astuces et problèmes

Historique : Utilisez l'historique (premier de trois icônes au bas de la page) pour copier des mots déjà utilisés pour les coller dans la fenêtre Russe au lieu de les saisir à nouveau.

Signes diacritiques : Il arrive que l'on copie du texte comprenant des signes diacritiques à partir d'une base de données, y compris WorldCat, et que, une fois collé dans un autre logiciel (par exemple un éditeur de page Web), le signe diacritique apparaisse non pas au-dessus de la lettre, mais à sa droite. Le problème se pose avec l'équivalent en translittération russe du mot chaconne, qui s'affiche comme cˇakona plutôt que čakona. Pour des raisons obscures et non documentées, certaines bases de données utilisent non pas le caractère correspondant (U+010D), mais la lettre c suivie du DIACRITIQUE CARON (angl. COMBINING CARON), soit U+030C. Il faut alors copier le bon caractère, par exemple dans l'utilitaire Table des caractères, pour ensuite le coller à la place des deux caractères incorrects. Le problème peut se produire avec tous les signes diacritiques, y compris les accents aigus et graves, de sorte que de nombreux éléments peuvent être affectés.

Le système de translittération ALA-LC utilisé par les catalogues de bibliothèques et WorldCat utilise une ligature au-dessus de paires t͡s, i͡u et i͡a (voir l'exemple transkript͡sii dli͡a fortepiano plus haut). Il s'agit ici du symbole DIACRITIQUE DOUBLE BRÈVE RENVERSÉE (angl. COMBINING DOUBLE INVERTED BREVE), soit U+0361.

Accueil | À propos du site | Pages essentielles | Bibliographie
Aide | Plan du site | Liste alphabétique des noms de fichiers
Modifications récentes et nouvelles | Commentaires | Au sujet de l'auteur

Prix pour la promotion d'une langue de qualité dans l'enseignement collégial et universitaire
Gala des Mérites du français 2003 de l'Office québécois de la langue française

Le GDRM décline toute responsabilité quant à la validité et à la pérennité des liens Internet fournis
ainsi qu’à l'exactitude et au caractère des données qu'ils renferment.

Date de dernière modification : 2025-04-18
© Marc-André Roberge 2025
Guide des difficultés de rédaction en musique (GDRM)
Faculté de musique, Université Laval, Québec