Forme correcte ✓
Forme fautive ✕
Exemple ➨

Guide des difficultés de rédaction en musique (GDRM)

Guides > Numérisation de documents, Google Livres, Google Traduction

La présente page explique en détail comment créer des fichiers PDF avec une photocopieuse, leur donner une mise en forme typographique convenable et les rendre facilement utilisables grâce à la reconnaissance optique de caractères. Elle montre ensuite comment utiliser Google Livres (Google Books) pour repérer des passages dans des livres numérisés et enregistrer de tels textes comme texte brut ou document PDF et comment se servir de Google Traduction (Google Translate).

Numérisation de documents
Utilisation de Google Livres
Utilisation de Google Traduction

La section sur l'utilisation de Google Traduction aborde également les techniques permettant de traitement de la documentation en russe. Il existe divers outils relatifs à la saisie et à la translittération des caractères cyrilliques.

Diverses techniques relatives à la photocopie et à la préparation de fichiers PDF sont proposées ailleurs.

Liens PDF encodés : Un lien vers un fichier PDF copié en faisant un clic droit sur un résultat proposé par Google, par exemple avec Internet Explorer, peut être soit très long et incompréhensible, soit impossible à coller dans un texte destiné à l'Impression. Le problème vient du fait que les caractères ://, entre autres, utilisent l'encodage-pourcent en les transformant en %3A%2F%2F. La solution consiste à coller le lien dans la page URL Decoder/Encoder et cliquer sur Decode, puis à en localiser le début (http:// ou https://), sélectionner jusqu'à inclure .pdf et copier la partie essentielle.

Lien avant décodage : http://www.google.ca/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwiwnPzViZXuAhXpUd8KHWRvAgM4UBAWMAJ6BAgCEAI&url=http%3A%2F%2Fetheses.bham.ac.uk%2F3357%2F1%2FBertoglio_12_PhD.pdf&usg=AOvVaw0v81VZ9bwr-2lDRGfVJeyv

Lien après décodage : http://etheses.bham.ac.uk/3357/1/Bertoglio_12_PhD.pdf

Dans Chrome, il suffit de faire un clic droit sur le lien Google pour le copier. Si le fichier a déjà été téléchargé, il faut taper Ctrl+J pour afficher la liste des fichiers téléchargés, puis faire un clic droit sur le lien et le copier.

Numérisation de documents

On peut numériser des documents tels que des feuilles mobiles ou des livres de deux façons, l'une gratuite (avec une application dédiée), l'autre payante (avec une photocopieuse). Ces techniques permettent d'obtenir un résultat convenant aux besoins de base, sans avoir recours à des appareils performants comme ceux utilisés par les bibliothèques de recherche pour réaliser des reproductions de haute qualité.

Avec une application dédiée

La présente section montre comment numériser avec l'application gratuite Adobe Scan.

Mode : Choisissez Document pour numériser une page à la fois, ou Livre pour numériser deux pages à la fois. Dans ce dernier cas, tenez l'appareil en mode paysage et alignez la ligne verticale pointillée avec le pli du livre. Dans les deux cas, l'application sélectionne le contenu en tenant compte des aléas de la prise manuel de la photo, qui se fait automatiquement.

Pivoter : Faire pivoter l'image si nécessaire, car il arrive souvent que l'application ne la place pas dans l'orientation de départ.

Recadrer : Modifiez la sélection au besoin en déplaçant les poignées rondes ou rectangulaires, puis appuyez sur Recadrer pour fixer la dimension.

Filtres : Choisissez Couleur d'origine si nécessaire.

Nettoyer : Lorsque vous avez numérisé toutes les pages (jusqu'à concurrence de 25 par fichier), cliquez sur Nettoyer et faites glisser un doigt en appuyant pour remplir les imperfections avec la couleur environnante et ainsi réparer les imprécisions inévitables résultant d'un travail effectué avec un appareil tenu à la main plutôt qu'à l'aide d'un dispositif fixe. Cliquez sur la coche (✓) dans le coin supérieur droit pour confirmer les modifications.

Enregistrer : Lorsque toutes les pages ont été numérisées et optimisées à votre satisfaction, cliquez sur Enregistrer le PDF pour placer le fichier sur le nuage (angl. cloud) où vous pourrez le récupérer et lui donner un nom de fichier approprié en l'enregistrant sur votre ordinateur.

Reconnaissance optique : La recherche plein texte est possible sans autre opération. Toutefois, le taux de succès semble très faible pour les textes composés en Fraktur. Les documents numérisés par Google Livres ne semblent cependant pas souffrir de ce problème.

Avec une photocopieuse

Cette procédure consiste à utiliser une photocopieuse possédant la fonction de numérisation, comme on en trouve dans certaines bibliothèques et dans des centres de photocopie. La numérisation peut parfois coûter moins cher que les photocopies puisqu'on n'utilise ni papier ni encre. La photocopieuse envoie directement les numérisations par courriel ou sur une clé USB.

Il est essentiel de faire quelques essais avant de se lancer dans une longue numérisation.

Mode : Choisir le mode Numérisation (par opposition à Copie).

Paramètres : Choisir l'orientation (portrait ou paysage), le format (PDF ou JPG), la résolution et le format de papier.

Orientation : Si le volume est de format réduit (une page maximum au format lettre ou A4, par exemple), la numérisation est facile : déplacez le livre vers la droite pour photographier les rectos. Dans le cas d'un plus grand format, comme certaines partitions, il faut photographier au format paysage, donc en plaçant les rectos dans un sens et les versos dans l'autre (tête-bêche). Dans ce cas, pour un recto (page impaire), appuyez le côté droit de la page contre la partie éloignée de la vitre; pour un verso (page paire), c'est le côté gauche de la page. Déplacer et, surtout, réorienter le volume peut être très délicat s'il est fragile et que sa reliure pourrait facilement céder.

Format de papier : Les photocopieuses ne permettent souvent pas d'utiliser la fonction de réduction ou d'agrandissement lorsque l'on souhaite numériser plutôt que simplement copier. Dans ce cas, sélectionnez un format de papier plus grand, comme 11 × 17 po ou A3, puis utilisez la version complète Adobe Acrobat (par opposition à Acrobat Reader, dont les fonctions sont limitées) pour éliminer l'excédent.

Nombre de pages : Ne numérisez pas trop de pages à la fois afin d'éviter tout blocage mécanique ou logiciel de la photocopieuse. Les fichiers pourraient être incomplets ou l'opération pourrait être simplement annulée sans avertissement, entraînant l'absence de remboursement et la perte du travail déjà effectué. Le risque de mauvais fonctionnement est proportionnel à la résolution choisie et au nombre de pages.

Masquage : Si le format du volume et la qualité de la reliure le permettent, fermez le couvercle pour éviter la création de deux larges bandes noires lors de la numérisation, ou du moins pour réduire leur taille. Vous pouvez aussi coller des feuilles blanches sur la vitre à l'aide de ruban adhésif. Cette opération est relativement peu importante puisqu'il faudra les éliminer autant que les noires; cependant, il peut être préférable de se retrouver avec de légers reliquats de blanc plutôt que de noir après avoir utilisé la procédure décrite ci-dessous sous Rognage.

Pages blanches : Numérisez toutes les pages, y compris celles qui sont blanches, afin d'obtenir une reproduction fidèle. Si le document est numérisé en noir et blanc, vous pouvez insérer ces pages blanches lors d'une étape ultérieure.

Vérification : Vérifiez les fichiers sur votre téléphone alors que vous trouvez encore à la photocopieuse de façon à pouvoir numériser à nouveau les pages oubliées ou mal reproduites. Cette précaution est d'autant plus importante si vous perdez ensuite l'accès à la source. Par prudence, évitez de créer des fichiers trop lourds afin de parer au cas où l'appareil n'arriverait pas à compléter le processus ou quitterait prématurément, vous forçant ainsi à reprendre le travail en payant une deuxième fois.

Noms de fichiers : Assurez-vous que les noms de fichiers obéissent à un ordre alphabétique ou numérique correct, en particulier s'ils comportent des dates, qui devraient toujours suivre le format aaaa-mm-jj. Donnez toujours des noms de fichiers commençant par un préfixe numérique en ajoutant des zéros non significatifs dans la limite de la longueur maximale qui s'applique au projet, par exemple 001-..., 002-..., etc. Ceci permettra d'éviter une séquence comme 1, 11, 2, 22, 3,... Les photocopieuses génèrent habituellement des noms de fichiers comportant la date et l'heure.

Assemblage : Combinez les fichiers dans Adobe Acrobat en vous assurant qu'ils sont dans l'ordre souhaité, puis enregistrez le résultat. Sous Fichier, sélectionnez Créer, puis Combiner les fichiers en un seul fichier PDF. Vérifiez à nouveau l'ordre des fichiers avant de confirmer l'opération et de modifier au besoin; il est toutefois possible de déplacer des pages dans un fichier enregistré.

Effectuez les opérations suivantes sur une copie du document, car il est facile de faire des erreurs.

Rognage : Éliminez les parties des pages qui dépassent de la zone reproduite en essayant de ne pas laisser de bandes noires, mais en veillant à ne rien tronquer.

Affichez la première page puis, dans le menu Outils, sous Pages, sélectionnez Recadrer.
Sélectionnez la portion à conserver; le pointeur se transforme alors en un triangle noir.
Double-cliquez dans la page pour faire apparaître la boîte de dialogue Définir des zones de page.
Sous Marges, sélectionnez Zone de rognage; sous Etendue, sélectionnez Toutes les pages; sous Application, sélectionnez Toutes les pages.
Cliquez sur OK, puis vérifiez le document en entier pour vous assurer qu'aucune portion n'a été tronquée; le cas échéant, annulez l'opération en tapant Ctrl+Z et sélectionnez de nouveau, mais d'une façon plus généreuse.

Rotation des pages : Fatese deux opérations de rotation dans le cas d'un document numérisé en format paysage.

Dans le menu Outils, sous Pages, sélectionnez Rotation pour faire apparaître la boîte de dialogie Rotation de pages.
Sous Sens, sélectionnez 180 degrés; sous Etendue, sélectionnez Toutes les pages; sous Rotation, sélectionnez Pages paires (si c'est bien le cas).
Cliquez sur OK, puis vérifiez que toutes les pages ont l'orientation désirée.
Refaites l'opération avec les paramètres suivants : sous Sens, sélectionnez 90 degrés sens horaire; sous Rotation, sélectionnez Toutes les pages.
Cliquez sur OK, puis vérifiez que toutes les pages ont l'orientation désirée.

Reconnaissance optique de caractères : Si le PDF obtenu n'est pas consultable, sous Outils, sélectionnez Reconnaissance du texte, puis Dans ce fichier. Sous Pages, sélectionnez Toutes. Si la langue affichée n'est pas la bonne, cliquez sur Modifier et sélectionnez la langue souhaitée sous Langue ROC principale. L'opération peut prendre quelques minutes lorsque le nombre de pages est très élevé, mais le résultat est habituellement très bon. Il est également possible de rendre consultable tout PDF qui ne l'est pas, qu'il ait été numérisé ou non.

Un texte numérisé sous forme de série d'images assemblées en un seul fichier PDF ne permet pas d'effectuer une recherche ni de sélectionner des passages pour faire un copier-coller. Il est toutefois possible de soumettre le document à la reconnaissance optique pour le rendre utilisable.

Utilisation de Google Livres

Recherche

Google Livres permet de repérer des passages provenant de livres numérisés et d'avoir accès, dans bien des cas (du moins pour de nombreux ouvrages dans le domaine public), à l'ensemble du contenu. On peut rechercher une phrase ou une portion de phrase dont on ignore l'auteur ou la source et identifier cette dernière, enregistrer le texte, faire si nécessaire une reconnaissance optique pour permettre la recherche plein texte, puis enfin le coller dans une application de traduction comme Google Traduction.

Lorsqu'on copie une source ancienne à partir de Google Livres, par exemple, un texte en allemand pouvant être composé en Fraktur (mais pas nécessairement), on doit porter attention à la présence du s long, qui s'écrit ſ (U+017F), comme dans Minneſänger, et lui substituer le s courant (Minnesänger).

Le recours à Google Livres peut être utile pour consulter des portions d'ouvrages dont la numérisation n'est que partielle, comme c'est le cas pour les livres récents. Les quelques passages offerts peuvent suffire à résoudre un problème de recherche, et on peut éviter une commande par prêt entre bibliothèques.

Tapez une section plus ou moins longue du texte à rechercher dans Google Livres (ou dans la page habituelle de Google), par exemple « Ganz anders als die Stellung des Gelehrten zur Sache ist die des Künstlers », en l'encradrant de guillemets (dactylographiques) pour cibler avec précision. (Essayez à nouveau en réduisant le nombre de mots si la recherche ne donne aucun résultat.) Google Livres fournit un lien vers la p. 4 de Zur Musik : Sechzehn Aufsätze (1892) de Philipp Spitta. Cliquez sur le lien pour afficher une portion de la page où la phrase recherchée apparaît en jaune.

Enregistrement de textes (texte brut ou PDF)

Ouvrez le menu en cliquant sur la roue d'engrenage dans le coin supérieur droit et sélectionnez Texte brut pour télécharger le document ou encore Télécharger le PDF. Les textes en allemand composés en Frakturschrift ouverts en format Texte brut peuvent comporter de nombreuses erreurs, comme des lettres manquantes ou mal identifiées, qu'il faudra corriger.

Tapez Ctrl+F pour rechercher dans le texte ou Ctrl+Maj+F pour afficher toutes les occurrences d'un mot dans le fichier. Les deux types de fichiers PDF sont consultables.

Sélectionnez le texte voulu et collez-le dans un traitement de texte comme texte brut pour éviter d'ajouter des codes ou des styles de mise en page qui compliqueraient inutilement la mise en page, que l'on souhaitera la plus simple possible. Dans Microsoft Word, cliquez sur Coller, puis Collage spécial et sélectionnez Texte unicode sans mise en forme.

Mise en forme typographique : Affichez les marques de mise en forme (Ctrl+Maj+* dans Microsoft Word). Si chaque ligne se termine par une marque de paragraphe (¶), rétablissez le renvoi automatique à la ligne (angl. word wrap) en tapant Ctrl+H pour afficher la boîte de dialogue Recherche et remplacer. Sous Remplacer | Spécial, sélectionnez Marque de paragraphe (ou tapez simplement ^p sous Rechercher); assurez-vous que la boîte d'entrée de texte sous Remplacer est vide; cliquez sur Remplacer tout.

Dans Corel WordPerfect, il suffit de remplacer toutes les occurrences du code [HRt] par une espace, ou d'utiliser la macro LineWrap.wcm sur le site Barry MacDonnell's Toolbox for WordPerfect. La macro a l'avantage de protéger les paragraphes séparés par une ligne blanche.

Complétez la mise en forme en faisant les opérations suivantes de recherche et remplacement :

toutes les occurrences de l'apostrophe par le même caractère pour changer les apostrophes; dactylographiques en apostrophes typographiques;
toutes les occurrences de deux espaces par une espace.

Utilisation de Google Traduction

Procédure standard

Sélectionnez et copiez la portion de texte à traduire.

Ouvrez Google Traduction et sélectionnez les langues de départ et d'arrivée , dans l'onglet Texte, puis collez le texte dans la fenêtre de gauche à raison d'un maximum de 5 000 caractères à la fois.

Copiez le résultat apparaissant dans la fenêtre de droite en cliquant sur la première des trois icônes dans le coin inférieur droit, puis collez-le dans un fichier texte. La qualité et la précision de la traduction sont très variables, mais suffisantes pour permettre de comprendre le texte; il est souvent nécessaire d'apporter des corrections pour une utilisation plus poussée.

Vous pouvez aussi sélectionner un document sur votre disque dur (taille maximale : 1 Mo) en choisissant l'onglet Documents.

Si nécessaire, utilisez la procédure détaillée ailleurs sur cette page pour rétablir le renvoi automatique à la ligne et donner au texte une certaine allure typographique.

Pour des traductions souvent meilleures, mais dans avec un choix de langues moins étendu, utilisez DeepL.

Translittération et traduction du russe

À partir de la translittération

Sélectionnez et copiez le texte russe présenté en translittération, par exemple dans une notice sur une transcription pour piano fournie par une base de données comme WorldCat : transkript͡sii dli͡a fortepiano (voir plus bas au sujet des caractères ligaturés). La procédure varie selon la disposition des deux langues dans Google Traduction, laquelle peut être inversée en cliquant sur la flèche double (⇆) entre les deux fenêtres (Intervertir les langues). Google peut jouer avec la casse de la lettre initiale, auquel cas il faudra corriger le problème.

Français-Russe

Collez le texte à gauche pour faire apparaître la version cyrillique à droite (транскрипции для фортепиано) avec la translittération en dessous. Celle-ci peut être légèrement différente de celle qui a été saisie; les éventuelles suggestions de Google peuvent ne pas être pertinentes.

Russe-Français

Collez la translittération à gauche, ce qui fait apparaître la même chose à droite.
Cliquez sur la flèche de changement de direction pour obtenir l'équivalent en caractères cyrilliques à droite (транскрипции для фортепиано).
Cliquez à nouveau sur la flèche de changement de direction pour voir les caractères cyrilliques passer à gauche et la traduction (qui peut être approximative) apparaître à droite.

À partir d'un document papier en russe

Si vous travaillez à partir d'un document papier comme source, saisissez un à un les caractères cyrilliques, par exemple Фантазия и фуга, au moyen du clavier qui s'affiche en cliquant sur la flèche dans le coin inférieur droit de la fenêtre Russe. Ce processus est fastidieux, surtout si l'on ne parle pas le russe, mais on peut assez rapidement acquérir de l'aisance. La translittération (Fantaziya i fuga) apparaît en gris dans la fenêtre Russe et la traduction (Fantaisie et Fugue) dans la fenêtre de droite. Les trois versions peuvent maintenant être copiées et collées dans un texte.

Si la source est en écriture cursive ou en italique, certains caractères cyrilliques seront différents de ceux écrits en caractères droits; il faut alors trouver l'équivalent droit.

Astuces et problèmes

Historique : Utilisez l'historique (premier de trois icônes au bas de la page) pour copier des mots déjà utilisés pour les coller dans la fenêtre Russe au lieu de les saisir à nouveau.

Signes diacritiques : Il arrive que l'on copie du texte comprenant des signes diacritiques à partir d'une base de données, y compris WorldCat, et que, une fois collé dans un autre logiciel (par exemple un éditeur de page Web), le signe diacritique apparaisse non pas au-dessus de la lettre, mais à sa droite. Le problème se pose avec l'équivalent en translittération russe du mot chaconne (чакона) qui s'affiche comme cˇakona plutôt que čakona. Pour des raisons obscures et non documentées, certaines bases de données utilisent non pas le caractère correspondant pour la lettre initiale (U+010D), mais la lettre c suivie du DIACRITIQUE CARON (angl. COMBINING CARON), soit U+030C. Il faut alors copier le bon caractère, par exemple dans l'utilitaire Table des caractères, et le coller à la place des deux caractères incorrects. Le problème peut se produire avec tous les signes diacritiques, y compris les accents aigus et graves, de sorte que de nombreux éléments peuvent être affectés.

Le système de translittération ALA-LC utilisé par les catalogues de bibliothèques et WorldCat utilise une ligature au-dessus de paires t͡s, i͡u et i͡a (voir l'exemple transkript͡sii dli͡a fortepiano plus haut). Il s'agit ici du symbole DIACRITIQUE DOUBLE BRÈVE RENVERSÉE (angl. COMBINING DOUBLE INVERTED BREVE), soit U+0361.

Prix pour la promotion d'une langue de qualité dans l'enseignement collégial et universitaire
Gala des Mérites du français 2003 de l'Office québécois de la langue française

Le GDRM décline toute responsabilité quant à la validité et à la pérennité des liens Internet fournis
ainsi qu’à l'exactitude et au caractère des données qu'ils renferment.

Guide des difficultés de rédaction en musique (GDRM)
Faculté de musique, Université Laval, Québec