Accueil
À propos du site
Liste des sujets
Pages essentielles
Bibliographie
Aide
Commentaires
{forme correcte} Forme correcte
{forme fautive} Forme fautive
{exemple} Exemple

Guides > Numérisation de documents, Google Livres, Google Traduction

La page suivante présente une procédure détaillée servant à créer des fichiers PDF avec une photocopieuse, à leur donner une mise en forme typographique convenable et à les rendre facilement utilisables grâce à la reconnaissance optique de caractères. Elle montre ensuite comment utiliser Google Livres (Google Books) pour repérer des passages dans des livres numérisés et enregistrer de tels textes comme texte brut ou document PDF et comment se servir de Google Traduction (Google Translate).

La section sur l'utilisation de Google Traduction se penche aussi sur les techniques permettant de traiter de la documentation en russe. Pour des outils relatifs à la saisie et à la translittération des caractères cyrilliques, voir la page Noms de personnes > Translittération et transcription des noms russes.

Voir aussi la page Guides > Photocopie et préparation de fichiers PDF.

Numérisation de documents

On peut numériser des documents tels que feuilles mobiles ou livres de deux façons. Une solution gratuite, mais moins précise à cause du besoin de tenir le téléphone ou la tablette de manière stable et de bien contrôler l'éclairage sur la page à copier, est de servir d'une application comme CamScanner (INTSIG). Il faut cependant procéder à la reconnaissance optique de caractères dans Adobe Acrobat pour rendre les numérisations consultables. Une solution payante, mais offrant plus de contrôle, est d'utiliser une photocopieuse possédant la fonction de numérisation, comme on en trouve dans certaines bibliothèques; la numérisation peut être effectuée à un moindre coût que les photocopies puisqu'on n'utilise ni papier ni encre. Dans le premier cas, il faut transférer manuellement les fichiers de l'espace de stockage du téléphone vers son ordinateur; dans le second, la photocopieuse envoie directement les numérisations par courriel.

Seule la procédure faisant appel à une photocopieuse est décrite ci-dessous. Il s'agit de techniques permettant de numériser des documents sans avoir accès à des appareils aussi performants que ceux utilisés par les bibliothèques de recherche pour faire des reproductions de haute qualité.

Il est essentiel de faire quelques expériences avant de se lancer dans une longue numérisation.

Mode : Choisir le mode Numérisation (par opposition à Copie).

Paramètres : Choisir l'orientation (portrait ou paysage), le format (PDF ou JPG), la résolution et le format de papier.

Orientation : Si le volume est de format réduit, p. ex. au plus une page en format lettre ou A4, la numérisation est facile, puisqu'il suffit de déplacer le livre vers la droite pour photographier les rectos. Dans le cas d'un plus grand format, comme certaines partitions, il faut photographier en format paysage, donc en plaçant les rectos dans un sens et les versos dans l'autre (tête-bêche). Dans ce cas, pour un recto (page impaire), le côté droit doit se trouver appuyé contre la partie éloignée de la vitre; pour un verso (page paire), c'est le côté gauche de la page. Déplacer et, surtout, réorienter le volume peut être très délicat s'il est fragile et que sa reliure pourrait facilement céder.

Format de papier : Les photocopieuses ne permettent souvent pas d'utiliser la fonction de réduction ou d'agrandissement lorsque l'on veut numériser plutôt que simplement copier. Dans ce cas, il faut choisir un format de papier plus grand, p. ex. 11 × 17 po ou A3, puis manipuler le fichier dans une version complète Adobe Acrobat (par opposition à Acrobat Reader, dont les fonctions sont limitées) pour éliminer l'excédent.

Nombre de pages : Toujours se limiter à un nombre réduit de pages à la fois pour éviter les blocages mécaniques ou logiciels de la photocopieuse lors de la préparation du fichier. Les fichiers pourraient être incomplets ou l'opération pourrait être simplement annulée sans avertissement, et ce, sans remboursement et sans moyen de récupérer le travail déjà effectué. Le risque de mauvais fonctionnement est proportionnel à la résolution choisie et au nombre de pages.

Masquage : Si le format du volume et la qualité de la reliure le permettent, fermer le couvercle pour éviter d'avoir deux larges bandes noires sur les numérisations ou du moins les réduire. On peut aussi coller des feuilles blanches sur la vitre avec du ruban adhésif. La chose importe relativement peu puisqu'il faudra les éliminer autant que les noires; cependant, il peut être préférable de se retrouver avec de légers reliquats de blanc plutôt que de noir après avoir utilisé la procédure décrite plus bas sous Rognage.

Pages blanches : Numériser toutes les pages, y compris celles qui sont blanches, de manière à obtenir une reproduction fidèle.

Vérification : Vérifier les fichiers sur son téléphone alors qu'on est encore à la photocopieuse de manière à pouvoir numériser à nouveau les pages qui auraient oubliées ou mal reproduites. La précaution est d'autant plus importante si l'on ne pourra plus avoir accès à la source.

Noms de fichiers : S'assurer que les noms de fichiers produiront un ordre alphabétique ou numérique correct. Toujours donner des noms de fichiers commençant par un préfixe numérique avec des zéros de remplissage, p. ex. 001-..., 002-..., etc., en utilisant un nombre de zéros égal au nombre maximal de pages. C'est ce qui permet d'éviter une séquence comme 1, 11, 2, 22, 3,... Les photocopieuses génèrent habituellement des noms de fichiers comportant la date et l'heure.

Assemblage : Combiner les fichiers dans Adobe Acrobat en s'assurant qu'ils sont dans l'ordre souhaité, puis enregistrer le résultat. Sous Fichier, choisir Créer, puis Combiner les fichiers en un seul fichier PDF... Vérifier à nouveau l'ordre des fichiers avant de confirmer l'opération.

Faire les opérations suivantes sur une copie du document, car il est facile de faire des erreurs.

Rognage : Éliminer les portions des pages qui dépassent la surface reproduite en essayant de ne pas laisser de bandes noires mais en s'assurant de ne rien tronquer.

Rotation des pages : Faire deux opérations de rotation dans le cas d'un document numérisé en format paysage.

Reconnaissance optique de caractères : Si le PDF obtenu n'est pas consultable, sous Outils, choisir Reconnaissance du texte, puis Dans ce fichier. Sous Pages, choisir Toutes. Si la langue affichée n'est pas la bonne, cliquer sur Modifier... et choisir la langue souhaitée sous Langue ROC principale. L'opération peut prendre quelques minutes lorsque le nombre de pages est très élevé; le résultat est habituellement très bon. On peut aussi rendre consultable tout PDF qui ne l'est pas, qu'on l'ait numérisé ou non.

Utilisation de Google Livres

Recherche

Google Livres permet de repérer des passages provenant de livres numérisés et avoir accès, dans bien des cas (du moins pour de nombreux ouvrages dans le domaine public) à l'ensemble du contenu. On peut rechercher une phrase ou une portion de phrase dont on ignore l'auteur ou la source et en identifier la source, enregistrer le texte, faire si nécessaire une reconnaissance optique pour le rendre cherchable et enfin le coller dans Google Traduction. La technique peut être utile pour visionner des portions d'ouvrages dont la numérisation n'est que partielle, comme c'est le cas pour des livres récents. Il arrive que les quelques passages offerts permettent de résoudre un problème de recherche; on peut parfois économiser une commande par prêt entre bibliothèques.

Taper dans Google Livres (ou dans la page habituelle de Google) une section plus ou moins longue du texte à rechercher, p. ex. « Ganz anders als die Stellung des Gelehrten zur Sache ist die des Künstlers », en l'encradrant de guillemets (dactylographiques) pour cibler avec précision. (Si la recherche ne retourne aucun résultat, on peut valoir la peine d'essayer de nouveu en réduisant le nombre de mots.) Google Livres fournit un lien vers le livre de Philipp Spitta intitulé Zur Musik : Sechzehn Aufsätze (1892) à la p. 4. Cliquer sur le lien pour afficher une portion de la page en marquant la phrase recherchée en jaune.

Enregistrement de textes (texte brut ou PDF)

Ouvrir le menu en cliquant sur la roue d'engrenage dans le coin supérieur droit et choisir Texte brut pour télécharger le document ou encore Télécharger le PDF. Les textes en allemand composés en Frakturschrift ouverts en format Texte brut peuvent comporter de nombreuses erreurs, comme des lettres manquantes ou mal identifiées, qu'il faudra corriger.

Taper Ctrl+F pour rechercher dans le texte. Les deux types de fichiers PDF sont consultables.

Sélectionner le texte voulu et le coller dans un traitement de texte comme texte brut pour éviter d'ajouter des codes ou des styles de mise en page qui compliqueraient inutilement la mise en page, que l'on souhaitera la plus simple possible. Dans Microsoft Word, cliquer sur Coller, puis Collage spécial... et choisir Texte unicode sans mise en forme.

Mise en forme typographique : Afficher les marques de mise en forme (Ctrl+Maj+* dans Microsoft Word). Si chaque ligne se termine par une marque de paragraphe (), rétablir le renvoi automatique à la ligne (angl. word wrap) en tapant Ctrl+H pour afficher la boîte Recherche et remplacer. Sous Remplacer | Spécial, choisir Marque de paragraphe (ou simplement taper ^p sous Rechercher); s'assurer que la boîte d'entrée de texte sous Remplacer est vide; cliquer sur Remplacer tout.

Dans Corel WordPerfect, il suffit de remplacer toutes les occurrences du code [HRt] par une espace, ou utiliser la macro LineWrap.wcm sur le site Barry MacDonnell's Toolbox for WordPerfect. La macro a l'avantage de protéger les paragraphes séparés par une ligne blanche.

Compléter la mise en forme en faisant les opérations suivantes de recherche et remplacement :

Utilisation de Google Traduction

Procédure standard

Sélectionner et copier la portion de texte à traduire.

Ouvrir Google Traduction et, dans l'onglet Texte, choisir les langues de départ et d'arrivée, puis coller le texte dans la fenêtre de gauche à raison d'un maximum de 5 000 caractères à la fois.

Copier le résultat apparaissant dans la fenêtre de droite en cliquant sur la première des trois icônes dans le coin inférieur droit et le coller dans un fichier texte. La qualité et la précision de la traduction est très variable, mais assez juste pour permettre de comprendre le texte; il est souvent nécessaire de faire des corrections pour une utilisation plus poussée.

Il est aussi possible de sélectionner un document sur son disque dur (taille maximum : 1 Mo) en choisissant l'onglet Documents.

Au besoin, utiliser la procédure détaillée ailleurs sur cette page pour rétablir le renvoi automatique à la ligne et donner au texte une certaine allure typographique.

Translittération et traduction du russe

À partir de la translittération

Sélectionner et copier le texte russe présenté en translittération, p. ex. dans une notice fournie par une base de données comme WorldCat: transkript͡sii dli͡a fortepiano (transcription pour piano) La procédure varie selon la disposition des deux languages dans Google Traduction, laquelle peut être inversée en cliquant sur la flèche double () entre les deux fenêtres (Intervertir les langues). Garder à l'esprit que Google peut jouer avec la casse de la lettre initiale et qu'il peut être nécessaire de corriger le problème.

Français-Russe
Russe-Français

À partir d'un document papier en russe

Si l'on travaille à partir d'un document papier comme source, saisir un à un les caractères cyrilliques, p. ex. Фантазия и фуга, au moyen du clavier que l'on appelle en cliquant sur la flèche dans le coin inférieur droit de la fenêtre Russe. Le processus est fastidieux, surtout si l'on ne parle pas le russe, mais on peut acquérir assez rapidement une bonne aisance. La translittération (Fantaziya i fuga) apparaît en gris dans la fenêtre Russe et la traduction (Fantaisie et Fugue) dans la fenêtre de droite. Les trois versions peuvent maintenant être copiées et collées dans un texte.

Ne pas oublier en saisissant les caractères cyrilliques que, si la source est en écriture cursive ou en italique, certains caractères seront différents que s'ils étaient écrits en caractères droits et qu'il faudra trouver l'équivalent droit.

Astuces et problèmes

Historique : Utiliser l'historique (premier de trois icônes au bas de la page) pour copier des mots déjà utilisés pour les coller dans la fenêtre Russe au lieu de les saisir à nouveau.

Signes diacritiques : Il arrive que l'on copie du texte comprenant des signes diacritiques à partir d'une base de données, y compris WorldCat, et que, une fois collé dans un autre logiciel (p. ex. un éditeur de page Web), le signe diacritique apparaisse non pas au-dessus de la lettre, mais à sa droite. Le problème se pose avec l'équivalent en translittération russe du mot chaconne, qui s'affiche comme cˇakona plutôt que čakona. Pour des raisons obscures et non documentées, certaines bases de données utilisent non pas le caractère correspondant (U+010D), mais la lettre c suivie du DIACRITIQUE CARON (angl. COMBINING CARON), soit U+030C. Il faut alors copier le bon caractère, p. ex. dans l'utilitaire Table des caractères, pour ensuite le coller à la place des deux caractères incorrects. Le problème peut se produire avec tous les signes diacritiques, y compris les accents aigus et graves, de sorte que bien des éléments peuvent être affectés.

Le système de translittération ALA-LC utilisé par les catalogues de bibliothèques et WorldCat se sert dans trois cas d'une ligature au-dessus de paires t͡s, i͡u et i͡a (voir l'exemple transkript͡sii dli͡a fortepiano plus haut). Il s'agit ici du symbole DIACRITIQUE DOUBLE BRÈVE RENVERSÉE (angl. COMBINING DOUBLE INVERTED BREVE), soit U+0361.

Accueil | À propos du site | Pages essentielles | Bibliographie | Aide
Plan du site | Liste alphabétique des fichiers | Modifications récentes et nouvelles
Commentaires | Au sujet de l'auteur

Prix pour la promotion d'une langue de qualité dans l'enseignement collégial et universitaire
Gala des Mérites du français 2003 de l'Office québécois de la langue française

Le GDRM décline toute responsabilité quant à la validité et à la pérennité des liens Internet fournis
ainsi qu’à l’exactitude et au caractère des données qu'ils renferment.

Date de dernière modification : 2019-06-27
© Marc-André Roberge 2019
Guide des difficultés de rédaction en musique (GDRM)
Faculté de musique, Université Laval, Québec