• Forme correcte 
  • Forme fautive   
  • Exemple            
Guide des difficultés de rédaction en musique (GDRM)

Guides > Numérisation de documents, Google Livres, Google Traduction

La présente page présente une procédure détaillée servant à créer des fichiers PDF avec une photocopieuse, à leur donner une mise en forme typographique convenable et à les rendre facilement utilisables grâce à la reconnaissance optique de caractères. Elle montre ensuite comment utiliser Google Livres (Google Books) pour repérer des passages dans des livres numérisés et enregistrer de tels textes comme texte brut ou document PDF et comment se servir de Google Traduction (Google Translate).

La section sur l'utilisation de Google Traduction se penche aussi sur les techniques permettant de traiter de la documentation en russe. Il existe divers outils relatifs à la saisie et à la translittération des caractères cyrilliques.

Diverses techniques relatives à la photocopie et à la préparation de fichiers PDF sont proposées ailleurs.

Liens PDF encodés : Un lien vers un fichier PDF copié en faisant un clic droit sur un résultat proposé par Google, p. ex. avec Internet Explorer, peut être soit très long et incompréhensible et ne pas se prêter à être collé dans un texte destiné à l'Impression. Le problème vient du fait que les caractères ://, entre autres, utilisent l'encodage-pourcent en les transformant en %3A%2F%2F. La solution consiste à coller le lien dans la page URL Decoder/Encoder et cliquer Decode, puis à en localiser le début (http:// ou https://), sélectionner jusqu'à inclure .pdf et copier la partie essentielle.

Lien avant décodage : http://www.google.ca/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiwnPzViZXuAhXpUd8KHWRvAgM4UBAWMAJ6BAgCEAI&url=http%3A%2F%2Fetheses.bham.ac.uk%2F3357%2F1%2FBertoglio_12_PhD.pdf&usg=AOvVaw0v81VZ9bwr-2lDRGfVJeyv

Lien après décodage : http://etheses.bham.ac.uk/3357/1/Bertoglio_12_PhD.pdf

Dans Chrome, on peut simplement faire un clic droit sur le lien Google et le copier. Si on a déjà téléchargé le fichier, taper Ctrl+J pour afficher la liste des fichiers téléchargés, puis faire un clic droit sur le lien et le copier.

Numérisation de documents

On peut numériser des documents tels que feuilles mobiles ou livres de deux façons. l'une gratuite, l'autre payante:

Seule la procédure faisant appel à une photocopieuse est décrite ci-dessous. Il s'agit de techniques permettant de numériser des documents sans avoir accès à des appareils aussi performants que ceux utilisés par les bibliothèques de recherche pour faire des reproductions de haute qualité.

Il est essentiel de faire quelques expériences avant de se lancer dans une longue numérisation.

Mode : Choisir le mode Numérisation (par opposition à Copie).

Paramètres : Choisir l'orientation (portrait ou paysage), le format (PDF ou JPG), la résolution et le format de papier.

Orientation : Si le volume est de format réduit, p. ex. au plus une page en format lettre ou A4, la numérisation est facile : il suffit de déplacer le livre vers la droite pour photographier les rectos. Dans le cas d'un plus grand format, comme certaines partitions, il faut photographier en format paysage, donc en plaçant les rectos dans un sens et les versos dans l'autre (tête-bêche). Dans ce cas, pour un recto (page impaire), le côté droit doit se trouver appuyé contre la partie éloignée de la vitre; pour un verso (page paire), c'est le côté gauche de la page. Déplacer et, surtout, réorienter le volume peut être très délicat s'il est fragile et que sa reliure pourrait facilement céder.

Format de papier : Les photocopieuses ne permettent souvent pas d'utiliser la fonction de réduction ou d'agrandissement lorsque l'on veut numériser plutôt que simplement copier. Dans ce cas, choisir un format de papier plus grand, p. ex. 11 × 17 po ou A3, puis manipuler le fichier dans une version complète Adobe Acrobat (par opposition à Acrobat Reader, dont les fonctions sont limitées) pour éliminer l'excédent.

Nombre de pages : Toujours se limiter à un nombre réduit de pages à la fois pour éviter les blocages mécaniques ou logiciels de la photocopieuse lors de la préparation du fichier. Les fichiers pourraient être incomplets ou l'opération pourrait être simplement annulée sans avertissement, et ce, sans remboursement ni moyen de récupérer le travail déjà effectué. Le risque de mauvais fonctionnement est proportionnel à la résolution choisie et au nombre de pages.

Masquage : Si le format du volume et la qualité de la reliure le permettent, fermer le couvercle pour éviter d'avoir deux larges bandes noires sur les numérisations ou du moins les réduire. On peut aussi coller des feuilles blanches sur la vitre avec du ruban adhésif. La chose importe relativement peu puisqu'il faudra les éliminer autant que les noires; cependant, il peut être préférable de se retrouver avec de légers reliquats de blanc plutôt que de noir après avoir utilisé la procédure décrite plus bas sous Rognage.

Pages blanches : Numériser toutes les pages, y compris celles qui sont blanches, de manière à obtenir une reproduction fidèle.

Vérification : Vérifier les fichiers sur son téléphone alors qu'on est encore à la photocopieuse de façon à pouvoir numériser à nouveau les pages oubliées ou mal reproduites. La précaution est d'autant plus importante si l'on ne pourra plus avoir accès à la source. Par prudence, éviter de créer des fichiers trop lourds au cas où l'appareil n'arrive pas à compléter le processus ou quitte prématurément, forçant ainsi à reprendre le travail en payant une deuxième fois.

Noms de fichiers : S'assurer que les noms de fichiers produiront un ordre alphabétique ou numérique correct, particulièrement s'ils comportent des dates, qui devraient toujours suivre le format aaaa-mm-jj. Toujours donner des noms de fichiers commençant par un préfixe numérique en ajoutant des zéros non significatifs dans la limite de la longueur maximale qui s'applique au projet, p. ex. 001-..., 002-..., etc. Ceci permettra d'éviter une séquence comme 1, 11, 2, 22, 3,... Les photocopieuses génèrent habituellement des noms de fichiers comportant la date et l'heure.

Assemblage : Combiner les fichiers dans Adobe Acrobat en s'assurant qu'ils sont dans l'ordre souhaité, puis enregistrer le résultat. Sous Fichier, choisir Créer, puis Combiner les fichiers en un seul fichier PDF. Vérifier à nouveau l'ordre des fichiers avant de confirmer l'opération et modifier au besoin; il est toutefois possible de déplacer des pages dans un fichier enregistré.

Faire les opérations suivantes sur une copie du document, car il est facile de faire des erreurs.

Rognage : Éliminer les portions des pages qui dépassent la surface reproduite en essayant de ne pas laisser de bandes noires, mais en s'assurant de ne rien tronquer.

Rotation des pages : Faire deux opérations de rotation dans le cas d'un document numérisé en format paysage.

Reconnaissance optique de caractères : Si le PDF obtenu n'est pas consultable, sous Outils, choisir Reconnaissance du texte, puis Dans ce fichier. Sous Pages, choisir Toutes. Si la langue affichée n'est pas la bonne, cliquer sur Modifier et choisir la langue souhaitée sous Langue ROC principale. L'opération peut prendre quelques minutes lorsque le nombre de pages est très élevé; le résultat est habituellement très bon. On peut aussi rendre consultable tout PDF qui ne l'est pas, qu'on l'ait numérisé ou non.

Utilisation de Google Livres

Recherche

Google Livres permet de repérer des passages provenant de livres numérisés et avoir accès, dans bien des cas (du moins pour de nombreux ouvrages dans le domaine public) à l'ensemble du contenu. On peut rechercher une phrase ou une portion de phrase dont on ignore l'auteur ou la source et identifier cette dernière, enregistrer le texte, faire si nécessaire une reconnaissance optique pour permettre la recherche plein texte et enfin le coller dans Google Traduction.

Lorsqu'on copie une source ancienne à partir de Google Livres, p. ex., un texte en allemand composé en Fraktur, on doit porter attention à la présence du s long (Wikipédia), qui pourra apparaître sous la forme ſ (U+017F), comme dans Minneſänger, et lui substituer le s courant (Minnesänger).

Le recours à Google Livres peut être utile pour visionner des portions d'ouvrages dont la numérisation n'est que partielle, comme c'est le cas pour des livres récents. Les quelques passages offerts peuvent suffire à résoudre un problème de recherche, et on peut éviter une commande par prêt entre bibliothèques.

Taper dans Google Livres (ou dans la page habituelle de Google) une section plus ou moins longue du texte à rechercher, p. ex. « Ganz anders als die Stellung des Gelehrten zur Sache ist die des Künstlers », en l'encradrant de guillemets (dactylographiques) pour cibler avec précision. (Essayer à nouveau en réduisant le nombre de mots si la recherche ne donne aucun résultat.) Google Livres fournit un lien vers la p. 4 de Zur Musik : Sechzehn Aufsätze (1892) de Philipp Spitta. Cliquer sur le lien pour afficher une portion de la page où la phrase recherchée apparaît en jaune.

Enregistrement de textes (texte brut ou PDF)

Ouvrir le menu en cliquant sur la roue d'engrenage dans le coin supérieur droit et choisir Texte brut pour télécharger le document ou encore Télécharger le PDF. Les textes en allemand composés en Frakturschrift ouverts en format Texte brut peuvent comporter de nombreuses erreurs, comme des lettres manquantes ou mal identifiées, qu'il faudra corriger.

Taper Ctrl+F pour rechercher dans le texte ou Ctrl+Maj+F pour afficher toutes les occurrences d'un mot dans le fichier. Les deux types de fichiers PDF sont consultables.

Sélectionner le texte voulu et le coller dans un traitement de texte comme texte brut pour éviter d'ajouter des codes ou des styles de mise en page qui compliqueraient inutilement la mise en page, que l'on souhaitera la plus simple possible. Dans Microsoft Word, cliquer sur Coller, puis Collage spécial et choisir Texte unicode sans mise en forme.

Mise en forme typographique : Afficher les marques de mise en forme (Ctrl+Maj+* dans Microsoft Word). Si chaque ligne se termine par une marque de paragraphe (), rétablir le renvoi automatique à la ligne (angl. word wrap) en tapant Ctrl+H pour afficher la boîte Recherche et remplacer. Sous Remplacer | Spécial, choisir Marque de paragraphe (ou simplement taper ^p sous Rechercher); s'assurer que la boîte d'entrée de texte sous Remplacer est vide; cliquer sur Remplacer tout.

Dans Corel WordPerfect, il suffit de remplacer toutes les occurrences du code [HRt] par une espace, ou utiliser la macro LineWrap.wcm sur le site Barry MacDonnell's Toolbox for WordPerfect. La macro a l'avantage de protéger les paragraphes séparés par une ligne blanche.

Compléter la mise en forme en faisant les opérations suivantes de recherche et remplacement :

Utilisation de Google Traduction

Procédure standard

Sélectionner et copier la portion de texte à traduire.

Ouvrir Google Traduction et, dans l'onglet Texte, choisir les langues de départ et d'arrivée, puis coller le texte dans la fenêtre de gauche à raison d'un maximum de 5 000 caractères à la fois.

Copier le résultat apparaissant dans la fenêtre de droite en cliquant sur la première des trois icônes dans le coin inférieur droit et le coller dans un fichier texte. La qualité et la précision de la traduction est très variable, mais assez juste pour permettre de comprendre le texte; il est souvent nécessaire de faire des corrections pour une utilisation plus poussée.

Il est aussi possible de sélectionner un document sur son disque dur (taille maximum : 1 Mo) en choisissant l'onglet Documents.

Au besoin, utiliser la procédure détaillée ailleurs sur cette page pour rétablir le renvoi automatique à la ligne et donner au texte une certaine allure typographique.

Pour des traductions souvent meilleures, mais dans moins de langues, utiliser DeepL.

Translittération et traduction du russe

À partir de la translittération

Sélectionner et copier le texte russe présenté en translittération, p. ex. dans une notice fournie par une base de données comme WorldCat : transkript͡sii dli͡a fortepiano (transcription pour piano) La procédure varie selon la disposition des deux languages dans Google Traduction, laquelle peut être inversée en cliquant sur la flèche double () entre les deux fenêtres (Intervertir les langues). Google peut jouer avec la casse de la lettre initiale, auquel cas il faudra corriger le problème.

Français-Russe
Russe-Français

À partir d'un document papier en russe

Si l'on travaille à partir d'un document papier comme source, saisir un à un les caractères cyrilliques, p. ex. Фантазия и фуга, au moyen du clavier que l'on appelle en cliquant sur la flèche dans le coin inférieur droit de la fenêtre Russe. Le processus est fastidieux, surtout si l'on ne parle pas le russe, mais on peut acquérir assez rapidement une bonne aisance. La translittération (Fantaziya i fuga) apparaît en gris dans la fenêtre Russe et la traduction (Fantaisie et Fugue) dans la fenêtre de droite. Les trois versions peuvent maintenant être copiées et collées dans un texte.

Si la source est en écriture cursive ou en italique, certains caractères cyrilliques seront différents que s'ils étaient écrits en caractères droits; il faut dans ces cas trouver l'équivalent droit.

Astuces et problèmes

Historique : Utiliser l'historique (premier de trois icônes au bas de la page) pour copier des mots déjà utilisés pour les coller dans la fenêtre Russe au lieu de les saisir à nouveau.

Signes diacritiques : Il arrive que l'on copie du texte comprenant des signes diacritiques à partir d'une base de données, y compris WorldCat, et que, une fois collé dans un autre logiciel (p. ex. un éditeur de page Web), le signe diacritique apparaisse non pas au-dessus de la lettre, mais à sa droite. Le problème se pose avec l'équivalent en translittération russe du mot chaconne, qui s'affiche comme cˇakona plutôt que čakona. Pour des raisons obscures et non documentées, certaines bases de données utilisent non pas le caractère correspondant (U+010D), mais la lettre c suivie du DIACRITIQUE CARON (angl. COMBINING CARON), soit U+030C. Il faut alors copier le bon caractère, p. ex. dans l'utilitaire Table des caractères, pour ensuite le coller à la place des deux caractères incorrects. Le problème peut se produire avec tous les signes diacritiques, y compris les accents aigus et graves, de sorte que bien des éléments peuvent être affectés.

Le système de translittération ALA-LC utilisé par les catalogues de bibliothèques et WorldCat se sert dans trois cas d'une ligature au-dessus de paires t͡s, i͡u et i͡a (voir l'exemple transkript͡sii dli͡a fortepiano plus haut). Il s'agit ici du symbole DIACRITIQUE DOUBLE BRÈVE RENVERSÉE (angl. COMBINING DOUBLE INVERTED BREVE), soit U+0361.

Accueil | À propos du site | Pages essentielles | Bibliographie
Aide | Plan du site | Liste alphabétique des noms de fichiers
Modifications récentes et nouvelles | Commentaires | Au sujet de l'auteur

Prix pour la promotion d'une langue de qualité dans l'enseignement collégial et universitaire
Gala des Mérites du français 2003 de l'Office québécois de la langue française

Le GDRM décline toute responsabilité quant à la validité et à la pérennité des liens Internet fournis
ainsi qu’à l'exactitude et au caractère des données qu'ils renferment.

Date de dernière modification : 2024-01-30
© Marc-André Roberge 2024
Guide des difficultés de rédaction en musique (GDRM)
Faculté de musique, Université Laval, Québec