Logo BPI
Accueil TCAO  |  Remerciements  |  Un aperçu  |  Licence BPI  |  Distribution  |  Installation  | 
Claviers  |  Pointeurs  |  Alibi  |  Concorde  |  Recode  |  Ventile  |  Vocable  |  Accueil BPI

Progiciels de TCAO - Un aperçu

Traitement de corpus assisté par ordinateur (TCAO)

Introduction

La communication et la culture de toute communauté passent par sa langue. Le génie d'une langue s'actualise dans ses textes écrits et sa littérature. Pour les spécialistes de la langue, les textes écrits sont en fait la matière première à partir de laquelle se fabriquent les grammaires et les dictionnaires d'une langue suite au dépouillement systématique de corpus de textes et à la classification des faits linguistiques.

Afin d'automatiser certaines tâches de dépouillement de cette matière première, la société Progiciels Bourbeau Pinard inc. (BPI) a développé une suite de cinq progiciels de traitement de corpus assisté par ordinateur (TCAO). Pour vous donner un aperçu de cette technologie de TCAO, ce document tente de faire ressortir les principales caractéristiques techniques de ces progiciels de TCAO.

Identification des progiciels de TCAO

Ce document présente une suite de cinq progiciels de traitement de corpus assisté par ordinateur (TCAO) qui sont désignés à l'aide des noms suivants: Alibi, Concorde, Recode, Ventile, Vocable. Plus bas, le Tableau 1 fournit une brève description de ces cinq progiciels de TCAO.

Progiciels TABLEAU 1 - Description des progiciels de TCAO
Recode

Recode est un progiciel de conversion automatique de jeux de caractères. Il permet de traiter et de recoder environ 175 jeux de caractères (charsets) différents et une douzaine de surfaces de fichiers. Selon la paire de charsets indiquée dans la commande d'appel (d'un charset de départ vers un charset d'arrivée), Recode effectue un recodage du ou des fichiers d'entrée. Puisque chaque charset peut être converti vers la plupart des 174 autres, plusieurs milliers de conversions différentes sont alors possibles.

Ventile

Ventile est un progiciel de production de statistiques textuelles. Comme élément textuel, Ventile permet de compter le nombre de paragraphes, de phrases, de mots et de caractères par fichier. Comme statistiques textuelles, Ventile produit les mesures de fréquence absolue, trois mesures de tendance centrale (le mode, la médiane et la moyenne arithmétique) et cinq mesures de dispersion (le minimum, le maximum, l'écart quartile, l'écart moyen et l'écart type). Les résultats statistiques sont affichés numériquement sous la forme d'un tableau et graphiquement sous la forme d'un histogramme.

Vocable

Vocable est un progiciel de production de listes de vocabulaire. Cet outil permet de dépouiller des textes et de fabriquer la liste des vocables actualisés dans ces textes. Ces listes peuvent être triées en ordre alphabétique habituel (de gauche à droite), en ordre alphabétique inverse (de droite à gauche) ou en ordre de fréquence décroissante. Chaque vocable peut être accompagné de la fréquence de ses occurrences et de la liste de toutes ses références textuelles pour chaque occurrence.

Concorde

Concorde est un progiciel de production de concordances de mots en contexte. Cet outil permet de dépouiller des fichiers textuels et de produire une liste alphabétique des éléments-vedettes avec leur contexte immédiat. L'élément-vedette d'une concordance peut être basé sur les mots dans leurs contextes phrastiques ou sur les caractères dans leurs contextes de mots. Les mots-vedettes peuvent être triés en ordre alphabétique habituel ou en ordre alphabétique inverse.

Alibi

Alibi est un progiciel d'alignement bi-textuel (ou bilingue). Cet outil permet de dépouiller en parallèle deux fichiers et d'aligner automatiquement les constituants textuels provenant de cette paire de fichiers. Comme constituants textuels, Alibi peut aligner les paragraphes, les phrases ou les mots de ces deux textes.


Pour avoir un aperçu de l'ensemble des options possibles de ces cinq progiciels de TCAO, consultez l'Annexe 1 qui contient respectivement le menu d'aide de chaque progiciel. Pour avoir une idée générale de la syntaxe des commandes d'appel pour chacun de ces progiciels TCAO, consultez la sous-section Exemples de commandes TCAO.

Droits d'auteur et Licence BPI-TCAO

Les droits d'auteur et tout autre droit de propriétés intellectuelles pour tout ce qui a été conçu, développé ou mis en application par Progiciels Bourbeau Pinard inc. pour les progiciels Alibi, Concorde, Recode, Ventile et Vocable sont dévolus à la société Progiciels Bourbeau Pinard inc. Ces cinq progiciels de TCAO NE SONT PAS DeES PARTAGICIELS ET ILS NE SONT PAS DU DOMAINE PUBLIC. Ces cinq progiciels sont distribués sous licence selon les modalités de la Licence BPI.

Avant de télécharger et d'utiliser ces progiciels de TCAO, vous devez prendre copie et lire attentivement la Licence BPI afin de reconnaître la notice de LIMITATION DE GARANTIE ainsi que les MODALITÉS de cette Licence BPI. Si vous décidez d'utiliser ensuite l'un ou l'autre de ces progiciels de TCAO, cela implique automatiquement que vous vous engagez à respecter l'ensemble des modalités de cette Licence BPI. Si vous respectez en tout temps cette Licence BPI, cela valide et confirme vos droits d'utilisation de ces progiciels de TCAO.

Advenant une quelconque redistribution par un tiers, tout utilisateur doit recevoir une copie intégrale de cette Licence BPI avec chaque copie de ces progiciels de TCAO afin que ce nouvel utilisateur puisse valider et confirmer son droit d'utilisation de ces progiciels de TCAO.


Caractéristiques techniques

Multi-plateformes

Ces cinq progiciels de TCAO sont de type multi-plateforme. Ils peuvent s'exécuter autant sur une plateforme Unix/Linux que sur une plateforme Windows (Windows95 ou Windows98). Par conséquent, cela implique au total un ensemble de 10 logiciels exécutables distincts, c'est-à-dire 5 progiciels multiplié par 2 plateformes. Notons que sous Windows, ces progiciels de TCAO doivent être exécutés pour l'instant dans une fenêtre Shell MS-DOS.

Comme références techniques initiales au système d'exploitation Linux, voir Bauer &al. [1999], Bauer &al. [1996], et Hekman [1997]. Pour le système d'exploitation Windows, voir les manuels Microsoft Corporation [1995], et Microsoft Corporation [1994].

Langues traitées

Identification des langues

Ces progiciels de TCAO peuvent traiter des corpus de textes écrits dans l'une ou l'autre des 14 langues indo-européennes ou des 6 langues africaines énumérées dans le Tableau 2 suivant.

TABLEAU 2 - Liste des langues traitées
14 langues indo-européennes
français, allemand, anglais, danois, espagnol, féroïen, finnois, hollandais, irlandais, islandais, italien, norvégien, portugais, suédois.
6 langues africaines
bambara, éwondo, fulfulde, lingala, sango, wolof.

Dans une perspective d'un développement durable pour le traitement informatique des langues africaines et des autres langues, ces progiciels de TCAO manipulent et traitent internement les caractères via le code UCS-2 de la norme internationale ISO 10646.

Sous Linux, ces 14 langues indo-européennes sont supportées par les jeux de caractères de la norme ISO 8859-1 (ISO Latin-1), et sous Windows, par le jeu de caractères de la Page Code 850. Dans le prochain tableau, figure le jeu de caractères de la norme ISO 8859-1.

Table ISO 8859-1

Jeux de caractères africains

Pour les langues africaines, deux jeux de caractères africains ont été fabriqués. Ces deux jeux permettent d'écrire, de visualiser et de traiter des textes écrits à la fois en français et dans l'une l'autre des six langues africaines énumérées plus haut. Pour déterminer l'alphabet de ces langues africaines, nous avons utilisé comme référence technique en la matière le manuel Alphabets de Langues Africaines qui a été publié en 1993 par la Société Internationale de Linguistique (SIL).

Notre premier jeu de caractères africains afrful-102-bpi_ocil supporte à la fois les alphabets du bambara, de l'éwondo, du français et du fulfulde. Notre deuxième jeu de caractères africains afrlin-104-bpi_ocil supporte à la fois les alphabets du français, du lingala, du sango et du wolof. Ces deux jeux de caractères africains sont illustrés respectivement dans les deux prochaines figures.

Table AFRFUL

Afin de pouvoir identifier plus clairement chacun des caractères africains de ce jeu de caractères afrful, consultez l'Annexe 2 ainsi que l'Annexe 3 pour les caractères du jeu de caractères afrlin.

Table AFRLIN

Alphabets orthographiques

Déterminer l'alphabet orthographique en usage pour des langues africaines est une spécialité en elle-même. La référence technique ou notre bible en la matière est le manuel Alphabets de Langues Africaines publié par la Société Internationale de Linguistique (voir SIL [1993]). En terme orthographique, les langues africaines se distinguent des langues indo-européennes selon les principales caractéristiques suivantes :

En français, les signes diacritiques sur une voyelle comme le e servent de marques d'ouverture ou de fermeture de voyelle. Dans les langues africaines, le système d'écriture orthographique est beaucoup plus complexe qu'en français. Dans plusieurs langues africaines comme le lingala, les ouvertures et les fermetures vocaliques sont représentées par des symboles orthographiques autonomes hérités de la phonétique tandis que les signes diacritiques sont des marques de ton. Plusieurs langues africaines possèdent quatre marques de ton différentes tandis que d'autres ont jusqu'à huit tons différents. Ces tons ne sont pas nécessairement tous marqués orthographiquement. De plus, certaines langues africaines utilisent des caractères ayant deux signes diacritiques au-dessus d'une même lettre, par exemple le tilde pour marquer la nasalisation vocalique plus un accent au-dessus de ce tilde pour marquer le ton.

Dans un système d'écriture, l'alphabet d'une langue est constitué d'un ensemble de graphèmes. Dans les langues africaines, un digraphe est un graphème de deux caractères tandis qu'un trigraphe est un graphème de trois caractères. En terme alphabétique, un digraphe ou un trigraphe est logiquement une et une seule lettre occupant une position spécifique dans l'alphabet.

Pour les langues supportées par les progiciels de TCAO, les deux figures présentées plus bas énumèrent respectivement l'alphabet orthographique de chacune de ces langues conformément au manuel SIL [1993]. Dans ces alphabets, nous avons ajouté à toutes les lettres minuscules provenant de SIL [1993] une lettre majuscule correspondante. Ces alphabets orthographiques sont affichés explicitement afin d'illustrer les caractères recherchés et d'indiquer l'ordre alphabétique des graphèmes.

Alphabets africains 1

Alphabets africains 2

Dans ces alphabets africains, notons que le symbole point d'interrogation en exposant est utilisé comme compromis typographique pour représenter le caractère lettre latine coup de glotte en position UCS2 0294.

Tris alphabétiques

Dans plusieurs applications de traitement computationnel de langues naturelles, le tri alphabétique demeure une composante essentielle et fort importante. En terminologie et en lexicographie computationnelle, cela est tout à fait évident comme nécessité. Cette fonctionnalité de tri l'est tout autant dans le domaine du traitement informatique de corpus pour la production d'index de mots, de listes de vocabulaire, de concordances de mots en contexte.

Lorsqu'il est question de tri informatisé, nous entendons parler habituellement du tri alphabétique de langues indo-européennes. Le tri alphabétique du français présente en lui-même un certain degré de difficulté. Mais à cette complexité, s'ajoutent plusieurs autres stratégies afin de pouvoir trier alphabétiquement les langues africaines. Par exemple, les digraphes et les trigraphes africains nécessitent toute une mécanique car ils doivent être traités logiquement comme un et un seul symbole. Par exemple en lingala, il n'y a pas de lettre g autonome mais plutôt un digraphe ng ainsi qu'un caractère particulier pour la lettre eng. De plus, un même digraphe n'occupe pas nécessairement la même position alphabétique entre deux langues africaines d'une même famille linguistique. Par exemple, le digraphe nd en fulfulde-jelgoore est un type de d tandis qu'en fulfulde-fuuta-jalon le nd est un type de n. Les algorithmes de tri que nous avons programmés fournissent toute la mécanique nécessaire pour trier alphabétiquement autant les langues indo-européennes que les diverses langues africaines.

Dans ces progiciels de TCAO, pour effectuer un tri alphabétique, les routines de comparaison se subdivisent en deux types de routines: les routines d'ordonnance et les routines d'équivalence. La fonction d'une routine d'ordonnance consiste à déterminer l'ordre d'un mot par rapport à un autre. Est-ce que le mot Y doit apparaître avant ou après le mot X? La fonction d'une routine d'équivalence consiste à déterminer si un mot X doit être compté comme une occurrence du mot Y ou comme un nouveau vocable. Par exemple dans une production de listes de vocabulaire, est-ce que la chaîne de caractères temps; (incluant le point-virgule) est une variante orthographique du mot temps pris comme forme générique?

Le progiciel Concorde fait appel aux routines d'ordonnance pour produire les concordances de mots en contexte. Par contre, Vocable fait appel aux routines d'ordonnance ainsi qu'aux routines d'équivalence pour produire des listes de vocabulaire avec la fréquence d'occurrences des vocables.

Pour le tri alphabétique, nous avons utilisé comme référence technique la norme internationale ISO 14651 dans laquelle les fondements et les principes du tri alphabétique sont très bien expliqués. Le rédacteur de cette norme est M. Alain Labonté du Service de la prospective et de la francisation du gouvernement du Québec. Pour des informations techniques complémentaires sur le tri informatique, voir Labonté [1988] et Labonté [1989].

En regard des principes et des méthodes recommandées par la norme ISO 14651, nous avons utilisé le concept de niveaux de tri et nous l'avons étendu en y ajoutant quelques niveaux de tri en fonction de nos besoins pour le tri alphabétique du français et des langues africaines. Notre routine de comparaison qui est utilisée par les progiciels contient un tri en huit niveaux. Ces huit niveaux sont les suivants :

int letter1_result = 0;
Niveau 1 - poids des lettres ou groupe de lettres
int letter2_result = 0;
Niveau 2 - poids des signes diacritiques
int letter3_result = 0;
Niveau 3 - poids des majuscules-minuscules
int digit1_result = 0;
Niveau 4 - catégorie des chiffres entiers
int digit2_result = 0;
Niveau 5 - valeur des nombres
int digit3_result = 0;
Niveau 6 - longueur du nombre (court en premier)
int punct1_result = 0;
Niveau 7 - catégorie des signes de ponctuation
int punct2_result = 0;
Niveau 8 - poids de la ponctuation

Nos niveaux 1, 2 et 3 correspondent exactement aux mêmes niveaux de la norme ISO 14651 tandis que nos niveaux 7 et 8 correspondent au niveau 4 de la norme ISO 14651. Entre les niveaux 3 et 4 de l'ISO 14651, nous avons ajouté nos trois niveaux numériques suivants: le niveau 4, le niveau 5 et le niveau 6.

Pour les trois premiers niveaux, nous avons fait attention à la combinatoire de lettres multiples (e.g. les digraphes et les trigraphes africains) ayant soit la pondération d'une lettre entière occupant sa propre position dans l'ordre, ou encore, partageant l'ordre d'une autre lettre, avec un incidence sur le niveau 2. De plus, le niveau 2 pour les diacritiques est traité de droite à gauche tel que recommandé par la norme ISO 14651.

Notre traitement computationnel du tri est organisé en deux passes, où le terme passe désigne un processus qui ne regarde honnêtement chacun des caractères qu'une seule fois (autrement dit, qui ne met aucun caractère de côté pour y revenir plus tard). Une première passe compile un automate reconnaisseur, qui dépend de la langue traitée, pour traiter efficacement les caractères multiples ayant la pondération d'une lettre entière, et produit en sortie une chaîne de longueur égale ou plus petite que l'originale, où chaque pseudo-caractère porte toute l'information requise de poids et de classification. Une seconde passe réalise ensuite les huit niveaux simultanément sur les chaînes à comparer, sans aucune utilisation de mémoire auxiliaire supplémentaire. Quoique le niveau 2 soit théoriquement défini à contre-sens, il est bien sûr traité dans le sens direct, avec le résultat théoriquement escompté.

De plus, notre routine de comparaison accepte un argument permettant de commander une comparaison inverse (i.e. allant du dernier caractère vers le premier caractère d'une chaîne). Dans ce cas, la seconde passe demeure unique, y compris pour les valeurs de suite de chiffres qui doivent toujours être interprétées dans le sens direct. Enfin, nous nous sommes assuré que cette routine de comparaison puisse traiter du code UCS-2 aussi bien que des codes à huit bits, spécialement au niveau de la compilation de l'automate reconnaisseur dans la première passe, où des techniques spéciales doivent être utilisées pour préserver raisonnablement l'espace-mémoire.

Formats de fichier textuel

Comme caractéristique commune à ces cinq progiciels de TCAO, les fichiers textuels d'entrée peuvent être soit en format plein texte, soit en format HTML ou soit en tout autre format SGML (voir Goldfarb [1990], ISO 8879:1988, ISO 8879:1986). Notons que HTML n'est pas un format proprement dit mais plutôt un langage de balisage utilisé pour formaliser les pages Web de tout site Internet. Pour plus de détails sur HTML, voir la norme RFC 1866 - Berners-Lee ainsi que le site Web http://www.w3.org pour obtenir les versions plus récentes de cette norme.

Fichier en format plein texte

Pour écrire un fichier textuel selon l'une ou l'autre des langues supportées, il faut suivre les conventions de clavier proposées. Selon le charset utilisé, un fichier textuel est qualifié soit de fichier encodé ou soit de fichier translittéré (pour plus de détails, voir Bourbeau [1999a]). Le progiciel Recode permet de recoder un fichier textuel en version translittérée vers un fichier en version encodée selon le charset approprié. Un recodage automatique peut aussi être effectué dans l'autre direction, de la version encodée vers la version translittérée (pour plus de détails, voir Pinard [1999]).

Un fichier textuel en format plein texte désigne un fichier électronique qui respecte l'ensemble des critères suivants :

  1. le fichier textuel ne doit pas contenir de codes de formatage spécifiques aux formats propriétaires des logiciels de traitement de texte Word ou WordPerfect;
  2. dans un fichier textuel translittéré, les caractères utilisés doivent être restreints aux 127 premiers caractères de l'ASCII standard (i.e. du code 0000 au code 007E de l'UCS-2);
  3. dans un fichier textuel translittéré, les caractères accentués ou tout autre caractère africain doivent être encodés selon les conventions de clavier propres aux charsets AFRL1-101-BPI_OCIL, AFRFUL-103-BPI_OCIL ou AFRLIN-105-BPI_OCIL;
  4. dans un fichier textuel encodé, les caractères utilisés doivent être restreints aux 255 caractères du charset ISO-8859-1, du charset AFRFUL-102-BPI_OCIL ou du charset AFRLIN-104-BPI_OCIL.

Pour illustrer cette notion de fichier en format plein texte, nous présentons plus bas trois exemples. Le premier exemple est un texte français en ISO Latin-1 et en version encodée. Ce texte est une traduction en français du deuxième exemple qui est un texte fulfulde formulé en version translittérée. Enfin, le troisième exemple est le même texte fulfulde écrit cette fois-ci en version encodée.

Exemple: Texte français en Latin-1 et en version encodée

LA JEUNE FILLE LAIDE

Il était une fois une jeune fille laide.  Un jour, sa mère mourut.  Mais avant
sa mort, cette dernière avait dit à sa coépouse: «Je suis malade, et je sais
que cette maladie ne me quittera plus; tôt ou tard elle me sera fatale.»

L'autre femme lui répondit: «Mais il n'y a pas que les malades qui meurent,
les gens en bonne santé meurent eux aussi, il n'y a aucun doute là-dessus!
Celui dont les jours sont arrivés à leur terme mourra, quoi qu'il fasse».

Au bout de quelque temps, la mère de la jeune fille mourut.  Or, il y avait
aussi un jeune homme, du nom de Boubou Yéebé, qui était parti en voyage depuis
longtemps --- plus de dix ans!  Il était fils unique et c'était le plus beau
jeune homme en ce pays.

Personne ne savait s'il était mort ou vivant.  Pendant son absence, ses
parents avaient eu une fille qu'ils nommèrent Pennda Yéebé et qui était aussi
la plus belle des jeunes filles en ce pays.

Exemple: Texte fulfulde en version translittérée

KO CURBAAJO KAANARO

On curbaajo kaanaro.  Woni seed[a, neene makko maayi.  Ado o mayde, o inni
nawlu makko: <<Awa mi nawni, mid[o anndi non nde nawnaare accataa lam;
ko neeb[i wa ko kayre wonata sabu am>>.

Oya inni: <<E!  Wonaa nawnud[o tun maayata, mo nawnaa kadi no maaya kisa!
Mo bald[e mu?^um lanni wo?^o, o maayay, lekki alaa>>.

Woni d[on haa b[ooyi.  Oya mard[o jiwo kaanaro on maayi.  Suka no ton no
wi?^ee Buubu Yeeb[e, on suka e nder sukaab[e aduna on alaa burd[o mo labeede.
On suka yahi safaari, o woni ton haa neeb[i --- wa duub[i sappo o ko fawi! ---
Yumma makko maraa b[id[d[o go?^o si wonaa kanko.

Jooni non, b[e anndaa si Buubu Yeeb[e no wuuri maa si o mayii.  Woni d[on e
nder duub[i b[e heb[itoyi jiwo, on b[e inni mo Pennda Yeeb[e on kadi e nder
curbaab[e aduna on alla mo?^o fotata labeede.

Exemple: Texte fulfulde en version encodée

Exemple en fulfulfe

Dans ce dernier exemple, notons que ce texte fulfulde en version encodée est en fait une image en format graphique GIF. Cette image a été fabriquée à partir d'une capture d'écran contenant une visualisation de ce texte fulfulde en format PostScript. Pour plus de détails sur le langage PostScript, voir Adobe systems incorporated [1987a] et [1987b]).

Fichier en format SGML

En plus du format plein texte, ces progiciels de TCAO peuvent traiter des fichiers en format sgmlisé, ce qui désigne un fichier formalisé soit en langage HTML (HyperText Markup Language) ou soit en langage SGML pur (Standard Generalized Markup Language). La prochaine figure permet de montrer un exemple d'un texte espagnol en format HTML source tout en illustrant en même temps certaines balises HTML qui accompagnent ce texte.

Exemple: Texte espagnol en version HTML

Exemple en espagnol


Variables d'environnement

Pour que les prociciels de TCAO puissent s'exécuter, il est nécessaire que les variables d'environnement appropriées soient initialisées au préalable. Les noms de ces quatre variables d'environnement sont identifiés de la façon suivantes :

+ 1 - Variable d'environnement LANGUAGE

Cette variable LANGUAGE sert à déterminer la langue du poste de travail de l'environnement usager pour l'affichage des menus d'aide ou des messsages d'erreur produits par un programme donné. Pour cette variable, ce sont les codes à deux lettres de la norme ISO 639 qui sont utilisés en paramètre comme valeur possible pour identifier une langue donnée.

+ 2 - Variable d'environnement DEFAULT_CHARSET

Cette variable DEFAULT_CHARSET sert à déclarer avec quel charset (ou jeu de caractères) le fichier textuel d'entrée a-t-il été encodé. Pour cette variable, c'est l'un des 175 noms de charset (ou de leurs noms alias) qui peut être utilisé en paramètre comme valeur possible. Pour obtenir la liste de ces charsets, voir Pinard [1999].

+ 3 - Variable d'environnement COLLATE_LANGUAGE

Cette variable COLLATE_LANGUAGE sert à déclarer dans quelle langue le texte du fichier d'entrée est-il écrit. Cette variable est obligatoire afin de pouvoir exécuter un tri alphabétique localisé à une langue donnée. Pour cette variable, ce sont les codes à trois lettres de la convention POV qui sont utilisés en paramètre comme valeur possible pour identifier une langue donnée. Cette convention POV, proposée par la Société Internationale de linguistique, a l'avantage d'offrir un inventaire exhaustif des langues parlées dans le monde selon une taxonomie des langues basée sur des critères ethnolinguistiques et socio-linguistiques plutôt que sur des critères strictement géographiques. Pour plus de détails, visitez le site Web http://www.sil.org/ethnologue/#contents.

+ 4 - Variable d'environnement LANGUE

Cette variable LANGUE sert à déclarer quelle fonte matricielle BPI faut-il charger en mémoire afin de pouvoir visualiser à l'écran le jeu de caractères d'une langue donnée.

Dans la figure suivante, les chiffres +1 à +4 permettent d'indentifier sous chaque progiciel de TCAO les variables d'environnement qu'il faut initialiser au préalable.

Organigramme TCAO

Le Tableau 3suivant contient la liste de toutes les valeurs possibles pour chacune des quatre variables d'environnement.


TABLEAU 3 - Variables d'environnement et leurs valeurs
Variable d'environnement   LANGUAGE
Environnement de travail de l'usager (Codes à 2-lettres ISO-639)
Valeur Langue Valeur Langue
da danois de allemand
en anglais es espagnol
fr français nl néerlandais
pl polonais pt portugais
sl slovène sv suédois
Variable d'environnement   DEFAULT_CHARSET
Jeu de caractères du fichier d'entrée
Valeur Charset
  La valeur admissible est un nom de charset parmi les 175 charsets supportés par Recode (voir Pinard [1999]).
Variable d'environnement   COLLATE_LANGUAGE
Langue du fichier d'entrée (Codes à 3-lettres POV)
Valeur Langue Valeur Langue
bra bambara ewo éwondo
frn français fub fulfulde-adamawa
fuc fulfulde-pulaar fuf fulfulde-fuuta-jalon
ful fulfulde-maasina fum fulfulde-jelgoore
fuq fulfulde-sokoto lin lingala
saj sango snj sango-riverain
wol wolof    
Variable d'environnement   LANGUE
Fonte à charger pour la visualisation à l'écran
Valeur Langues
ful bambara, fulfulde, éwondo, français.
lin lingala, sango, wolof, français.
l1 français, allemand, anglais, danois, espagnol, féroïen, finnois, hollandais, irlandais, islandais, italien, norvégien, portugais, suédois.

Sous Linux, l'initialisation d'une variable d'environnement se fait à l'aide de la commande export. Par exemple, voir plus bas les trois commandes en (1). Sous Windows, l'initialisation se fait avec la commande set. Par exemple, voir plus bas les trois commandes en (2) et en (3). De telles commandes d'initialisation doivent être exécutées au niveau de la ligne d'invite du système d'exploitation.

(1)  export LANGUAGE=fr
     export DEFAULT_CHARSET=l1
     export COLLATE_LANGUAGE=frn

(2)  set LANGUAGE=fr
     set DEFAULT_CHARSET=l1
     set COLLATE_LANGUAGE=frn

(3)  set LANGUAGE=fr
     set DEFAULT_CHARSET=850
     set COLLATE_LANGUAGE=frn

Dans les commandes en (1) et (2), la valeur de la variable d'environnement DEFAULT_CHARSET est le code l1 tandis que la valeur de la variable d'environnement COLLATE_LANGUAGE est le code frn. Par contre en (3), la valeur de DEFAULT_CHARSET est le code 850 en présupposant dans ce cas-ci que le fichier d'entrée est encodé avec le charset CP850. Il faut bien sûr associer la bonne langue avec le bon charset, tout comme il faut associer le bon charset en fonction du fichier d'entrée!

Raffineurs textuels

Identification des raffineurs

Comme autre caractéristique commune à ces progiciels de TCAO, notons que Ventile, Vocable, Concorde et Alibi supportent la notion de régions textuelles à l'aide de raffineurs internes et de raffineurs externes. L'utilisateur doit formuler dans le paramètre SCAN-SPEC d'une commande les raffineurs qu'il désire. Ces raffineurs permettent d'activer des modules internes effectuant automatiquement un balayage textuel sélectif dans les fichiers d'entrée à traiter. Le Tableau 4 suivant identifie chaque raffineur possible pouvant faire partie d'une liste hiérarchique de raffineurs.

TABLEAU 4 - Paramètre SCAN-SPEC
Identification des démarreurs / terminateurs admissibles
Raffineurs internes Raffineurs externes (balises HTML ou SGML)
P Paragraphes h1 Titres de niveau 1
S Phrases h2 Titres de niveau 2
V Vers (i.e. ligne) p Paragraphes
W Mots td Items d'un tableau
C Caractères   ou toute autre balise SGML ou HTML valide selon la grammaire DTD associée au fichier d'entrée.
  Octets    
Raffineurs internes complémentaires
T Fournir une balise démarreur/terminateur avant et après le textuel.
F Reconnaître l'espace français après une ponctuation forte.

Dans le contexte de ces progiciels de TCAO, nous utilisons une terminologie particulière qu'il est opportun d'expliquer. Dans le langage SGML et HTML, les termes start tag et end tag sont utilisés pour désigner les balises d'un quelconque élément de ce langage de balisage. Nous pouvons traduire ces deux termes techniques par balise d'ouverture et par balise de fermeture pour un élément donné. Pour réduire ces deux termes à un seul mot, nous utilisons le terme démarreur pour désigner une balise d'ouverture et le terme terminateur pour désigner une balise de fermeture. Par exemple, la balise <p> est un démarreur tandis que la balise </p> est un terminateur de l'élément textuel paragraphe.

Le terme raffineur interne désigne un opérateur qui active un module dont la fonction consiste à découvrir et à fixer au vol le démarreur et le terminateur d'une région textuelle faisant partie de la structure hiérarchique d'un texte. Par exemple, le raffineur interne P a pour fonction de demander l'exécution d'un module de reconnaissance servant à déterminer (ou à CHERCHER) les bornes d'un paragraphe et à baliser les paragraphes à l'aide d'un démarreur et d'un terminateur. Dans le paramètre scan-spec d'une ligne de commande, tout raffineur interne est identifié par une lettre en majuscule.

Le terme de raffineur externe désigne un module dont la fonction consiste à récupérer et à utiliser le démarreur et le terminateur provenant d'un fichier dont la structure textuelle est déjà marquée par des balises. Par exemple, un fichier d'entrée en format HTML est un fichier «smglisé» dont la structure textuelle est déjà balisée. Dans le paramètre scan-spec d'une ligne de commande, tout raffineur externe est identifié par une lettre ou par des lettres en minuscule.

Selon le contexte, le terme raffineur désigne soit un raffineur interne, soit un raffineur externe, ou soit les deux à la fois. La syntaxe du paramètre scan-spec est illustrée à l'aide d'exemples dans la prochaine section.

Les raffineurs internes

Avant de discuter du concept de raffineur interne, expliquons d'abord ce qu'on entend par les termes «hiérarchie textuelle» et «région textuelle». Il est important de comprendre ces deux termes et de les maîtriser car ces notions s'articulent avec le concept de raffineur.

Un fichier textuel en format plein texte possède une hiérarchie textuelle et des régions textuelles mais ces éléments textuels ne sont pas balisés explicitement. Physiquement parlant, un fichier en format plein texte est constitué d'un ensemble de lignes. Ces lignes sont soit des lignes blanches ou soit des lignes contenant des caractères. Ces caractères sont soit des caractères imprimables ou soit des caractères de contrôle. Pour un humain qui lit ce genre de fichier, ce-dernier peut déduire spontanément qu'une chaîne de caractères entre deux blancs est un mot (i.e. une région textuelle de type mot). Tout comme il peut déduire qu'un bloc de lignes de texte qui débute et se termine par une ligne blanche est un paragraphe (i.e. une région textuelle de type paragraphe). Pour une machine qui lit ce genre de fichier plein texte, cela n'est pas aussi évident car pour elle tous les caractères sont au même niveau.

Une région textuelle se définit comme étant un élément textuel ayant une position physique et une longueur. Par exemple, un titre, un paragraphe, une phrase, un mot tout comme un simple caractère sont tous considérés comme étant une région textuelle spécifique. Pour un texte donné, chacune de ces régions sont imbriquées les unes dans les autres pour former une structure textuelle.

Le terme niveau hiérarchique désigne la place qu'occupe une région textuelle par rapport à une autre et l'ensemble de ces niveaux hiérarchiques constituent la hiérarchie textuelle pour un texte donné. Par exemple, en terme de niveaux hiérarchiques décroissants, un paragraphe (P) contient des phrases, une phrase (S) contient des mots et un mot (W) contient des caractères (C). Par contre, un mot ne contient pas de phrase, tout comme une phrase ne contient pas de paragraphe.

Maintenant à quoi sert un raffineur interne du point de vue de l'utilisateur? Un raffineur interne permet à l'utilisateur de demander à un progiciel TCAO donné de reconnaître d'abord certaines régions textuelles avant d'exécuter les fonctions de dépouillement et de traitement du fichier d'entrée. À l'aide du paramètre scan-spec, c'est l'utilisateur qui détermine les régions textuelles qui lui sont pertinentes en regard du traitement computationnel désiré. Les raffineurs permettent ainsi d'effectuer un traitement computationnel plus «raffiné» sur un texte donné.

Par exemple dans la commande en (4), la valeur du paramètre scan-spec est la liste P,S et cette liste contient d'abord le raffineur interne P suivi du raffineur interne S. Cette commande en (4) demande d'aligner le fichier lingala xlin.lin avec sa traduction française contenue dans le fichier xlinfr.l1. Pour effectuer cet alignement bi-textuel de fichiers, le symbole P indique d'appliquer le raffineur interne P afin d'aligner dans une première passe tous les paragraphes tandis que le symbole S indique d'appliquer le raffineur interne S afin d'aligner dans une deuxième passe toutes les phrases à l'intérieur de chaque paragraphe.

(4)   alibi  P,S  xlin.lin  xlinfr.l1

Avec le raffineur interne P, le progiciel Alibi produira internement un démarreur et un terminateur de paragraphe pour tout bloc de texte délimité par une ou plusieurs lignes vides (ou lignes blanches). Avec le raffineur interne S, Alibi produira internement un démarreur et un terminateur de phrase si le texte contient une ponctuation forte .?! suivie possiblement de ])"» et suivie de 2 espaces blancs.

En règle générale, les raffineurs internes s'utilisent lorsque le fichier d'entrée est un fichier textuel, en format plein texte, qui ne contient pas de démarreurs et de terminateurs balisant les régions textuelles. La valeur du paramètre scan-spec peut être soit un seul raffineur ou soit une liste de raffineurs. Dans une liste de raffineurs, la syntaxe d'écriture demande d'utiliser une virgule pour séparer chaque niveau de raffineurs. Lorsqu'il y a plusieurs raffineurs à un même niveau hiérarchique, chaque raffineur doit être séparé par le signe +.

Le raffineur interne V sert à indiquer que le genre littéraire des textes à traiter n'est pas de la prose. Il peut s'agir de poésie sous forme de vers et de strophes ou d'une liste de syntagmes sous forme de lignes. Ce raffineur V désigne un vers d'un poème, une ligne d'une chantefable ou une simple ligne. Dans un tel cas, ce sont plutôt des lignes qu'il faut préserver et traiter comme région textuelle. Avec le raffineur V, un progiciel comme Alibi produit internement un démarreur et un terminateur de vers si une ligne de caractères orthographiques se termine par un ou plusieurs caractères fin de ligne.

Notons que l'ordre des raffineurs est significatif. Les raffineurs doivent être ordonnés logiquement par ordre de niveau textuel décroissant. Par exemple, l'ordre décroissant des niveaux P,S,W pour paragraphe / phrase / mot est logiquement cohérent. Toutefois, l'ordre décroissant P,V pour paragraphe / ligne est discutable dans certains contextes. En effet, une seule et même ligne (comme un titre par exemple) peut correspondre à un paragraphe mais, dans la plupart des cas, un paragraphe ne se limite pas nécessairement à une seule ligne. Par contre, l'ordre décroissant V,S pour ligne / phrase est plus que discutable car une phrase se limite rarement à une seule et même ligne. Pour Alibi, l'ordre V,S n'est pas hiérarchiquement logique et un tel usage est litigieux car les résultats seront plutôt incohérents.

Comme autres raffineurs internes, il y a les raffineurs T et F qu'il ne faut pas confondre. Puisque le raffineur interne T ne s'utilise qu'avec des raffineurs externes, ce-dernier sera alors présenté dans la prochaine section portant sur les raffineurs externes.

Le raffineur interne F doit être expliqué en regard du raffineur S qui est utilisé pour délimiter les segments (ou les phrases). Le raffineur interne S demande de reconnaître les fins de phrases comme région textuelle. Comme règle générale, ce raffineur considère qu'une marque de fin de phrase est une ponctuation forte suivie de deux espaces blancs. Par conséquent, un caractère point suivi d'un seul caractère espace n'est pas analysé comme une marque de fin de phrase. Le raffineur F permet de forcer la main au module de reconnaissance des phrases en lui dictant de considérer en plus qu'un point suivi d'un seul espace est une marque de fin de phrase.

Dans la commande en (5), le raffineur interne S et le raffineur F sont utilisés au même niveau hiérarchique. Alors dans les deux textes d'entrée toto-1.txt et toto-2.txt, tout point suivi d'un seul espace sera interprété comme une marque de fin de phrase et tout point suivi de deux espaces sera aussi interprété comme une marque de fin de phrase.

(5)   alibi  P,S+F  toto-1.txt  toto-2.txt

Un utilisateur pourrait éventuellement décider de normaliser son texte d'entrée en s'assurant qu'il y a toujours deux blancs après toute ponctuation forte et ne pas utiliser le raffineur F. Dans la plupart des applications, il n'est pas de mise de modifier ou d'altérer un texte original. Dans un tel cas, le raffineur F peut être utilisé. Ce raffineur F a toutefois des effets de bord. Par exemple, un point terminant une abréviation sera interprété comme une marque de fin de phrase. Avec le raffineur F, chaque phrase dans les exemples en (6) sera segmentée en deux phrases telles que délimitées en (7).

(6)  «Je vous dis que M. Bill n'a pas fini de s'enrichir.»
     L'édifice de l'O.N.U. est localisé dans un autre quartier.
     L'article 2. et l'article 2.1 sont @`a l'ordre du jour.
     L'hon. Harvie Andre (ministre de la Consommation)

(7)  «Je vous dis que M.// Bill n'a pas fini de s'enrichir.»
     L'édifice de l'O.N.U.// est localisé dans un autre quartier.
     L'article 2.// et l'article 2.1 sont @`a l'ordre du jour.
     L'hon.// Harvie Andre (ministre de la Consommation)
Les raffineurs externes

Dans le contexte de ces progiciels de TCAO, un raffineur externe est toute balise d'une grammaire DTD (i.e. la grammaire de déclaration de type de document selon la terminologie SGML, voir la norme internationale ISO 8879). Par exemple, toute balise de la grammaire DTD de la norme HTML 3.2 ou HTML 4.0 peut être considérée comme un raffineur externe.

Comme autre exemple, toute balise dans un fichier SGML dont la syntaxe répond formellement à la grammaire DTD qui lui est sous-jacente peut être utilisée comme raffineur externe. Pour une meilleure performance, il est entendu que les fichiers d'entrée en langage SGML sont formellement conformes à leur grammaire DTD. Pour valider automatiquement et formellement un fichier SGML en regard de sa propre grammaire DTD, il est recommandé de faire usage d'un valideur syntaxique tel que l'utilitaire nsgmls de Clark [1998].

Avant d'expliquer un usage de raffineurs externes, il est opportun d'introduire le raffineur interne T à l'aide de l'exemple en (8) tout en décomposant le paramètre scan-spec dont la valeur est la liste des raffineurs html,tr,th+T,td,p+P,S.

(8)   alibi  html,tr,th+T,td,p+P,S  toto-1.html  toto-2.html

Le raffineur interne T s'utilise toujours avec un raffineur externe. Le nom du raffineur T provient de la première lettre du mot anglais "Tag". Le raffineur T permet de dire au module de reconnaissance de régions textuelles qu'il doit, pour une balise donnée, ajouter lui-même au vol soit un démarreur (i.e. balise d'ouverture) ou soit un terminateur (i.e. balise de fermeture) lorsqu'une de ces balises a été omise dans les fichiers d'entrée. Bref, le raffineur T demande de balancer un démarreur avec un terminateur lorsque l'un des deux est absent du fichier d'entrée.

Dans la commande en (8), la formulation th+T désigne d'abord le raffineur externe th qui a pour effet de demander d'aligner le niveau textuel d'un élément tableau marqué conformément par une balise <th> et elle désigne en plus le raffineur interne T qui a pour effet de demander d'ajouter au vol un terminateur th aux endroits où la balise de fermeture </th> a été omise dans l'un ou l'autre des deux fichiers d'entrée (toto-1.html et toto-2.html).

Dans la formulation p+P en (8), le symbole p désigne d'abord le raffineur externe p qui a pour effet de demander d'aligner le niveau textuel paragraphe marqué conformément par une balise <p> de HTML. Le symbole P désigne le raffineur interne P qui a pour effet d'activer le module de reconnaissance de paragraphes pour récupérer les situations textuelles où les balises <p> et </p> seraient toutes deux absentes des fichiers d'entrée. Si la formulation en (8) avait été p+P+T, cela aurait signifé en plus d'ajouter au vol un démarreur / terminateur p aux endroits où l'une ou l'autre des balises <p></p> aurait été omise dans les fichiers d'entrée.

En terme d'alignement proprement dit, la commande alibi en (8) demande d'aligner les deux textes d'entrée en procédant par niveaux hiérarchiques décroissants, conformément à la hiérarchie textuelle énoncée par la liste de raffineurs contenant les six régions textuelles suivantes :

  1. le niveau html pour englober le tout;
  2. le niveau tableau tr;
  3. le niveau tableau th;
  4. le niveau tableau td;
  5. le niveau paragraphe p;
  6. et enfin le niveau phrase S.

Cette commande en (8) peut être reformulée comme en (9) si l'utilisateur désire déclarer les raffineurs externes tr, th et td comme étant du même niveau hiérarchique.

(9)    alibi  html,tr+th+T+td,p+P,S  toto-1.html  toto-2.html

La commande en (9) demande d'aligner les deux textes d'entrée en procédant par niveaux hiérarchiques décroissants selon la hiérarchique textuelle ne contenant cette fois-ci que les quatres nivaux suivants :

  1. le niveau html pour englober le tout;
  2. le niveau tableau tr, th et td;
  3. le niveau paragraphe p;
  4. et enfin le niveau phrase S.

Exemples de commandes TCAO

Pour chaque progiciel de TCAO, le Tableau 5 suivant fournit quelques exemples de commande d'appel afin d'illustrer la syntaxe d'écriture de commandes TCAO. Pour connaître la signification des diverses options possibles de ces cinq progiciels de TCAO, consultez l'Annexe 1 qui contient respectivement le menu d'aide de chaque progiciel. Pour comprendre les valeurs possibles du paramètre de balayage textuel scan-spec, consultez la sous-section Identification des raffineurs.

TABLEAU 5 - Exemples de commandes d'appel TCAO
Commande Options SCAN-SPEC Fichier(s) d'entrée
ventile -w65 -h10 W xbamfr.l1  xengfr.l1  xfulfr.l1  xlinfr.l1  xwolfr.l1
ventile -w60 -h10 P,S,W xeng.l1
ventile -w60 -h0 body resums.html
vocable -w70 -f W xbam.bra
vocable -w70 -p10 -i W xsaj.lin
vocable -w70 -p10 html,tr+th+td,P,S+F+a+i,W resums.html
concorde -w70 -r10 S,W xlin.lin
concorde -w70 -i S,W xlinfr.l1
concorde -r5 W,C xwol.lin
concorde -r5 -w70 -a wowlu S,W xful.bra
concorde -w70 -r5 th+td+T,S+F,W resuma.html
alibi   P,S xwol.lin  xwolfr.l1
alibi -k -w70 P,S xwol.lin  xwolfr.l1
alibi -k -w70 -a kòròkè -b frère P,S xbam.bra  xbamfr.l1
alibi -k -w70 html,tr,th+T,td,p+P,S resumf.html resums.html

Documentation technique

Pour ces progiciels de TCAO, la documentation technique qui est disponible en français désigne les trois manuels suivants: Bourbeau [1999a]; Bourbeau [1999b]; et Pinard [1999]. Parmi les fichiers de distribution de ces progiciels de TCAO, il est important de noter qu'il n'y a pas de produits logiciels permettant d'imprimer des fontes africaines. Avec ces prociciels de TCAO, les fichiers textuels africains ne peuvent être imprimés pour l'instant qu'en version translittérée.

Toutefois, les deux manuels de documentation technique (voir Bourbeau [1999a] et [1999b]) contiennent plusieurs exemples et divers extraits de textes écrits en bambara, en fulfulde, en lingala, en sango et en wolof. Une telle documentation démontre clairement qu'il est donc possible d'utiliser des fontes africaines pour imprimer des textes en langues africaines.

Afin de pouvoir imprimer et publier ces manuels de documentation TCAO, nous avons exploité le logiciel d'éditique Texinfo (voir Chassell & Stallman [1995]) ainsi que les fontes African Computer Modern Font, ou fontes fc (voir Knappen [1998a] et Knappen [1998b]). Cette fonte fc de Knappen, formalisée en langage METAFONT (voir Knuth [1992]), permet d'imprimer des documents en langues africaines sur des imprimantes supportant le protocole PostScript (voir Adobe Systems Incorporated [1987a] et [1987 b]). Pour un aperçu du jeu de caractères des fontes EC et FC, consultez les trois tableaux en Annexe 4.

Afin de pouvoir imprimer la documentation technique relative à nos travaux sur les langues africaines, ce n'est pas la version originale de Texinfo qui a été utilisée mais une version particulière que nous avons développée. Pour produire cette version particulière de Texinfo (ou ce Texinfo africain, nous avons d'abord programmé diverses macros en langage TeX (voir Knuth [1993]). Ensuite, ces macros ont été intégrées dans le code source de Texinfo tout en ajoutant à ce code des conventions d'encodage africain et en y intégrant le support des fontes fc.

Avant de distribuer un tel Texinfo africain à des utilisateurs de l'Afrique francophone, il faudrait traduire en français la documentation technique de Texinfo et mettre à jour toute cette documentation en y ajoutant les explications nécessaires pour la configuration et l'utilisation de cette version africaine. Malheureusement, la fabrication d'une distribution d'un tel Texinfo africain pour une éditique (ou une PAO - publication assistée par ordinateur) africaine n'a pas pu être effectuée pour l'instant. Un tel objectif pourrait éventuellement faire l'objet d'un projet ultérieur.


État des travaux

Fontes africaines

La visualisation de fontes africaines directement à l'écran nécessite l'existence et la présence de divers formats graphiques de fontes lorsqu'on désire supporter ces fontes africaines autant sur la plateforme Unix/Linux que sur la plateforme Windows95. Pour chacune de ces deux plateformes, une fonte matricielle (ou «bitmap») est nécessaire dans le mode console sous Linux ou dans le mode shell MS-DOS sous Windows95. De plus, un fonte vectorielle est nécessaire dans le mode fenestration: c'est-à-dire dans X Windows sous Unix et dans une fenêtre Windows sous Windows95.

Dans l'état actuel de nos travaux, la fabrication de tous ces types de formats graphiques n'est pas complétée pour les diverses fontes africaines. Le Tableau 6 résume l'état actuel des travaux en ce qui a trait aux fontes par rapport aux divers périphériques: les espaces blancs entre crochets indiquent que ces fontes ne sont pas encore disponibles. Toutefois, des travaux de développement sont présentement en cours afin de compléter les fontes africaines afrful et afrlin pour la plateforme Windows95 et ce autant pour l'écran vidéo que pour les pilotes de clavier.


TABLEAU 6 - Fontes africaines
Périphériques Linux Windows
Écran vidéo Console Shell MS-DOS
Version translittérée afrful fichier.t-bra afrful fichier.t-bra
afrlin fichier.t-lin afrlin fichier.t-lin
latin-1 fichier.t-fra latin-1 fichier.t-fra
Version encodée afrful fichier.bra afrful En construction
afrlin fichier.lin afrlin En construction
latin-1 fichier.fra latin-1 [  IBM437  ]
  X-Windows Windows
Version encodée afrful [     ] afrful En construction
afrlin [     ] afrlin En construction
latin-1 fontes *.bdf latin-1 fontes *.ttf
Page Code 819
Clavier    
Version encodée afrful [     ] afrful En construction
afrlin [     ] afrlin En construction
latin-1 Pilote de clavier latin-1 Pilote de clavier
Imprimantes PostScript HP-PCL
Version encodée afrful [ Fontes FC ] afrful En construction
afrlin [ Fontes FC ] afrlin En construction
latin-1 Fontes EC latin-1 Fontes TTF
WEB - HTML Netscape Internet Explorer
Version encodée afrful [     ] afrful [     ]
afrlin [     ] afrlin [     ]
latin-1 Entités HTML latin-1 Entités HTML

Dans l'état actuel des choses sous Windows, les utilisateurs des progiciels de TCAO ne peuvent visualiser les textes africains qu'en version translittérée. Si un utilisateur tente de visualiser un texte africain en version encodée sous Windows95 cela ne bloquera pas pour autant le système d'exploitation. Sauf que les caractères africains prévus dans une position donnée seront simplement remplacés à l'affichage par le caractère en position correspondante provenant du jeu de caractère alors en vigueur (e.g. les positions du jeu de caractères CP850 ou du jeu IBM437).


Conclusion

Ces progiciels de TCAO sont encore à leur première version. Les futurs développements de ces progiciels seront orientés en fonction des réactions et des besoins des utilisateurs. Même si certains travaux de développement sont déjà en cours, n'hésitez pas à utiliser le courrier électronique pour nous faire part de vos réactions et de vos suggestions!


Annexe 1 - Menus d'aide des progiciels TCAO

Menu d'aide - Recode

«Free recode» transforme les jeux de caractères et les surfaces de fichiers

Usage: recode [OPTION]... [ [CHARSET] | DEMANDE [FICHIER]... ]

Un paramètre obligatoire pour une option de forme longue l'est aussi pour une
option de forme courte.  La même règle s'applique à un paramètre indiqué comme
étant optionnel.

Listes:
  -l, {-}{-}list[=FORMAT]     afficher un charset donné, ou fournir toute la liste
  -k, {-}{-}known=PAIRES      choisir les charsets selon quelques PAIRES connues
  -h, {-}{-}header[=[LN/]NOM] tabuler NOM sur stdout, utilisant LN, puis terminer
  -F, {-}{-}freeze-tables     produire un module C contenant toutes les tables
  -T, {-}{-}find-subsets      lister tout charset qui est sous-ensemble d'un autre
  -C, {-}{-}copyright         afficher les conditions de copie, puis terminer
      {-}{-}help              fournir ce message d'aide, puis terminer
      {-}{-}version           identifier la programme, puis terminer

Modes d'opération:
  -v, {-}{-}verbose           afficher les étapes prévues, suivre la progression
  -q, {-}{-}quiet, {-}{-}silent   taire les messages sur les recodages irréversibles
  -f, {-}{-}force             effectuer même les recodages irréversibles
  -t, {-}{-}touch             «touch»er les fichiers après leur remplacement
  -i, {-}{-}sequence=files    fabriquer des fichiers pour ordonnancer les passes
      {-}{-}sequence=memory   utiliser des tampons pour ordonnancer les passes
  -p, {-}{-}sequence=pipe     utiliser «pipe» pour ordonnancer les passes

Ajustements fins:
  -s, {-}{-}strict            recoder strictement, perte possible de caractères
  -d, {-}{-}diacritics        se restreindre aux diacritiques pour HTML/LaTeX
  -S, {-}{-}source[=LN]       ne recoder que les chaînes et les commentaires LN
  -c, {-}{-}colons            utiliser «:» plutôt que «"» pour les trémas
  -g, {-}{-}graphics          convertir au mieux possible les «rulers» IBMPC
  -x, {-}{-}ignore=CHARSET    ignorer CHARSET durant le choix des étapes

L'option «-l» sans FORMAT ni CHARSET donne la liste des charsets et
des surfaces disponibles.  FORMAT vaut «decimal», «octal»,
«hexadecimal» ou «full», ou encore un caractère dans
«dohf».  Le charset «Latin-1» est la valeur par défaut.
LN est le nom d'un langage: `c', `perl' ou `po'; `c' par défaut.

DEMANDE est SOUS-DEMANDE[,SOUS-DEMANDE]...; SOUS-DEMANDE est
CODAGE[..CODAGE]...  CODAGE est [CHARSET][/[SURFACE]]...;
DEMANDE ressemble souvent à AVANT..APRÈS où AVANT et APRÈS étant des charsets.

Un CHARSET omis sous-entend le charset canonique (par défaut);
une [/SURFACE]... omise sous-entend les surfaces implicites
pour CHARSET; un / sans surface indique l'absence de toute surface.
Voir le manuel de documentation!

En l'absence de «-i» ou «-p», choisir «-i» avec FICHIER, sinon «-p».
Chaque FICHIER est recodé sur lui-même, détruisant l'original.
Si aucun FICHIER n'est donné, alors agir comme un filtre
et recoder stdin sur stdout.

Rapporter tout disfonctionnement à recode-bugs@iro.umontreal.ca;
et rapporter les problèmes de francisation à fr@li.org.

Menu d'aide - Ventile

«Ventile» produit des statistiques textuelles sur les éléments
constitutifs d'un texte.

Usage: ventile [OPTION]... SCAN-SPEC[,SCAN-SPEC]...  FICHIER...

Options:
  {-}{-}copyright  afficher les conditions de copie, puis terminer
  {-}{-}help       fournir ce message d'aide, puis terminer
  {-}{-}version    identifier le programme, puis terminer

Options de sortie:
  -v         expliquer en mode bavard ce qui se passe
  -d         sortir de l'information interne pour fin de déverminage
  -w WIDTH   nombre de colonnes WIDTH comme largeur d'histogramme
  -h CELLS   nombre de pigeonniers CELLS, 0 pour aucun histogramme

Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:

  P   paragraphe délimité par une ou plusieurs lignes vides
  S   phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
  V   vers terminé par une ou plusieurs fins de ligne
  W   mot délimité par un blanc (caractère espace)
  C   caractère unique (énergivore en CPU)
  T   fournir une balise démarreur/terminateur avant et après le textuel
  F   reconnaître l'espace français après une ponctuation forte

Menu d'aide - Vocable

«Vocable» produit des listes du vocabulaire des mots contenus
dans des fichiers textuels.

Usage: vocable [OPTION]... SCAN-SPEC[,SCAN-SPEC]...  FICHIER...

Options:
  {-}{-}copyright  afficher les conditions de copie, puis terminer
  {-}{-}help       fournir ce message d'aide, puis terminer
  {-}{-}version    identifier le programme, puis terminer

Options de sortie:
  -v         expliquer en mode bavard ce qui se passe
  -d         sortir de l'information interne pour fin de débogage
  -f         trier par ordre de fréquences descendantes
  -r         produire les références aux lignes d'occurrence
  -p SIZE    paginer après SIZE lignes (aucune multi-colonne par défaut)
  -w WIDTH   lister les vocables sur une largeur WIDTH (79 col. par défaut)
  -i         produire les vocables en ordre alphabétique inverse

Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:

   P   paragraphe délimité par une ou plusieurs lignes vides
   S   phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
   V   vers terminé par une ou plusieurs fins de ligne
   W   mot délimité par un blanc (caractère espace)
   C   caractère unique (énergivore en CPU)
   T   fournir une balise démarreur/terminateur avant et après le textuel
   F   reconnaître l'espace français après une ponctuation forte

Menu d'aide - Concorde

«Concorde» produit des concordances de mots en contexte.

Usage: concorde [OPTION]... SCAN-SPEC[,SCAN-SPEC]  FICHIER...

Options:
  {-}{-}copyright  afficher les conditions de copie, puis terminer
  {-}{-}help       fournir ce message d'aide, puis terminer
  {-}{-}version    identifier le programme, puis terminer

Options de sortie:
  -v         expliquer en mode bavard ce qui se passe
  -d         sortir de l'information interne pour fin de débogage
  -a MOT     limiter la sortie ayant MOT dans le contexte gauche ou droit
  -w WIDTH   utiliser la valeur WIDTH comme largeur pour lister les contextes
  -r WIDTH   fournir les références aux lignes sur WIDTH colonnes en moyenne
  -i         produire les mots-vedettes en ordre alphabétique inverse

Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:

   P   paragraphe délimité par une ou plusieurs lignes vides
   S   phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
   V   vers terminé par une ou plusieurs fins de ligne
   W   mot délimité par un blanc (caractère espace)
   C   caractère unique (énergivore en CPU)
   T   fournir une balise démarreur/terminateur avant et après le textuel
   F   reconnaître l'espace français après une ponctuation forte

Menu d'aide - Alibi

«Alibi» effectue un alignement bi-textuel de deux fichiers.

Usage: alibi [OPTION]...  SCAN-SPEC[,SCAN_SPEC]...  FILE-A  FILE-B

Options:
  {-}{-}copyright  afficher les conditions de copie, puis terminer
  {-}{-}help       fournir ce message d'aide, puis terminer
  {-}{-}version    identifier le programme, puis terminer

Options d'entrée:
  -r         lire les fichiers binaires mais ne pas les réécrire
  -x         lire les fichiers binaires et les réécrire

Options d'analyse:
  -z         utiliser des bornes floues, non pas les bornes fortes
  -v         expliquer en mode bavard ce qui se passe
  -d         sortir de l'information interne pour fin de débogage

Options de sortie:
  -a MOT     sortir du FICHIER-A tout segment aligné contenant MOT
  -b MOT     sortir du FICHIER-B tout segment aligné contenant MOT
  -e         produire une sortie pour l'interface `alibi' Emacs/Ediff
  -k         produire la sortie en forme de boîtes sur 2 colonnes
  -c         justifier les deux colonnes sur la ligne du centre
  -w WIDTH   utiliser la valeur WIDTH comme largeur avec l'option -k
  -s         produire une sortie en format SGML des alignements

Options de calibrage:
  -M VALEUR  100 * moyenne du rapport de longueur mot-B par longueur mot-A
  -V VALEUR  100 * variance du rapport de longueur mot-B par longueur mot-A
  -Z VALEUR  pénalité pseudo-infinie
  -A VALEUR  -100 * log ([prob. de 0-1 match] / [prob. de 1-1 match])
  -B VALEUR  -100 * log ([prob. de 2-1 match] / [prob. de 1-1 match])
  -C VALEUR  -100 * log ([prob. de 2-2 match] / [prob. de 1-1 match])

SPECS est PASSE[,PASSE]... alors que PASSE est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]...
et chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:

   P   paragraphe délimité par une ou plusieurs lignes vides
   S   phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
   V   vers terminé par une ou plusieurs fins de ligne
   W   mot délimité par un blanc (caractère espace)
   C   caractère unique (énergivore en CPU et option peu utile)
   T   fournir une balise démarreur/terminateur avant et après le textuel
   F   reconnaître l'espace français après une ponctuation forte

Un format de sortie est impliqué par défaut si une des options -eks est omise.
Les valeurs de calibrage impliquées sont -M100 -V680 -Z2500 -A450 -B230 -C440.

Annexe 2 - Jeu de caractères AFRFUL

Les jeux de caractères africains afrful permettent de couvrir les alphabets du bambara, de l'éwondo, du français et du fulfulde. Le jeu de caractères AFRFUL-102-BPI_OCIL représente un jeu de caractères, en version encodée, qui est utilisé pour l'affichage à l'écran des langues africaines suivantes: le bambara, l'éwondo, le fulfulde (ou peuhl). Les noms alias acceptables pour désigner ce jeu de caractères encodés sont afrful102bpiocil, bambara, ewondo, fulfulde, ou bra.

Le jeu de caractères AFRFUL-103-BPI_OCIL représente un jeu de caractères, en version translittérée, qui est utilisé pour l'encodage au clavier des langues africaines suivantes: le bambara, l'éwondo, le fulfulde (ou peuhl). Les noms alias acceptables pour désigner ce jeu de caractères translittérés sont afrful103bpiocil, tbambara, tewondo, tfulfulde ou tbra. Pour chacun des 255 caractères présentés dans la liste plus bas, voici la signification de chacune des colonnes :

Dec
indique la valeur décimale du caractère;
Oct
indique la valeur octale du caractère;
Hex
indique la valeur hexadécimale du caractère;
Mne
fournit le code mnémotechnique à deux lettres de la norme RFC 1345;
UCS2
indique la valeur UCS du caractère;
Kbd
fournit la convention d'encodage au clavier de ce caractère;
AFRFUL-102-BPI_OCIL
donne le nom du caractère, si possible en français, conformément à la norme ISO 10646.

Dec  Oct Hex  Mne UCS2     Kbd  AFRFUL-102-BPI_OCIL

  0  000  00  NU  0000          nul nul
  1  001  01  SH  0001          soh début d'en-tête
  2  002  02  SX  0002          stx début de texte
  3  003  03  EX  0003          etx fin de texte
  4  004  04  ET  0004          eot fin de transmission
  5  005  05  EQ  0005          enq demande
  6  006  06  AK  0006          ack accusé de réception positif
  7  007  07  BL  0007          bel sonnerie
  8  010  08  BS  0008          bs espace arrière
  9  011  09  HT  0009          ht tabulation horizontale
 10  012  0a  LF  000A          lf interligne
 11  013  0b  VT  000B          vt tabulation verticale
 12  014  0c  FF  000C          ff page suivante
 13  015  0d  CR  000D          cr retour de chariot
 14  016  0e  SO  000E          so hors code
 15  017  0f  SI  000F          si en code
 16  020  10  DL  0010          dle échappement transmission
 17  021  11  D1  0011          dc1 commande d'appareil un
 18  022  12  D2  0012          dc2 commande d'appareil deux
 19  023  13  D3  0013          dc3 commande d'appareil trois
 20  024  14  D4  0014          dc4 commande d'appareil quatre
 21  025  15  NK  0015          nak accusé de réception négatif
 22  026  16  SY  0016          syn synchronisation
 23  027  17  EB  0017          etb fin de transmission de bloc
 24  030  18  CN  0018          can annulation
 25  031  19  EM  0019          em fin de support
 26  032  1a  SB  001A          sub caractère de substitution
 27  033  1b  EC  001B          esc échappement
 28  034  1c  FS  001C          is4 séparateur de fichier
 29  035  1d  GS  001D          is3 séparateur de groupe
 30  036  1e  RS  001E          is2 séparateur d'article
 31  037  1f  US  001F          is1 séparateur de sous-article
 32  040  20  SP  0020      < > espace
 33  041  21  !   0021      !   point d'exclamation
 34  042  22  "   0022      "   guillemet
 35  043  23  Nb  0023      #   dièse-symbole numéro (croisillon)
 36  044  24  DO  0024      $   symbole dollar
 37  045  25  %   0025      %   symbole pour cent
 38  046  26  &   0026      &   perluète
 39  047  27  '   0027      '   apostrophe
 40  050  28  (   0028      (   parenthèse gauche
 41  051  29  )   0029      )   parenthèse droite
 42  052  2a  *   002A      *   astérisque
 43  053  2b  +   002B      +   signe plus
 44  054  2c  ,   002C      ,   virgule
 45  055  2d  -   002D      -   tiret-trait d'union, signe moins
 46  056  2e  .   002E      .   point
 47  057  2f  /   002F      /   barre oblique
 48  060  30  0   0030      0   chiffre zéro
 49  061  31  1   0031      1   chiffre un
 50  062  32  2   0032      2   chiffre deux
 51  063  33  3   0033      3   chiffre trois
 52  064  34  4   0034      4   chiffre quatre
 53  065  35  5   0035      5   chiffre cinq
 54  066  36  6   0036      6   chiffre six
 55  067  37  7   0037      7   chiffre sept
 56  070  38  8   0038      8   chiffre huit
 57  071  39  9   0039      9   chiffre neuf
 58  072  3a  :   003A      :   deux-points
 59  073  3b  ;   003B      ;   point-virgule
 60  074  3c  <   003C      <   signe inférieur à
 61  075  3d  =   003D      =   signe égal à
 62  076  3e  >   003E      >   signe supérieur à
 63  077  3f  ?   003F      ?   point d'interrogation
 64  100  40  At  0040      @   a commercial-arobase
 65  101  41  A   0041      A   lettre majuscule latine A
 66  102  42  B   0042      B   lettre majuscule latine B
 67  103  43  C   0043      C   lettre majuscule latine C
 68  104  44  D   0044      D   lettre majuscule latine D
 69  105  45  E   0045      E   lettre majuscule latine E
 70  106  46  F   0046      F   lettre majuscule latine F
 71  107  47  G   0047      G   lettre majuscule latine G
 72  110  48  H   0048      H   lettre majuscule latine H
 73  111  49  I   0049      I   lettre majuscule latine I
 74  112  4a  J   004A      J   lettre majuscule latine J
 75  113  4b  K   004B      K   lettre majuscule latine K
 76  114  4c  L   004C      L   lettre majuscule latine L
 77  115  4d  M   004D      M   lettre majuscule latine M
 78  116  4e  N   004E      N   lettre majuscule latine N
 79  117  4f  O   004F      O   lettre majuscule latine O
 80  120  50  P   0050      P   lettre majuscule latine P
 81  121  51  Q   0051      Q   lettre majuscule latine Q
 82  122  52  R   0052      R   lettre majuscule latine R
 83  123  53  S   0053      S   lettre majuscule latine S
 84  124  54  T   0054      T   lettre majuscule latine T
 85  125  55  U   0055      U   lettre majuscule latine U
 86  126  56  V   0056      V   lettre majuscule latine V
 87  127  57  W   0057      W   lettre majuscule latine W
 88  130  58  X   0058      X   lettre majuscule latine X
 89  131  59  Y   0059      Y   lettre majuscule latine Y
 90  132  5a  Z   005A      Z   lettre majuscule latine Z
 91  133  5b  <(  005B      [   crochet gauche
 92  134  5c  //  005C      \   barre oblique inversée
 93  135  5d  )>  005D      ]   crochet droit
 94  136  5e  '>  005E      ^   accent circonflexe
 95  137  5f  _   005F      _   trait bas
 96  140  60  '!  0060      `   accent grave
 97  141  61  a   0061      a   lettre minuscule latine a
 98  142  62  b   0062      b   lettre minuscule latine b
 99  143  63  c   0063      c   lettre minuscule latine c
100  144  64  d   0064      d   lettre minuscule latine d
101  145  65  e   0065      e   lettre minuscule latine e
102  146  66  f   0066      f   lettre minuscule latine f
103  147  67  g   0067      g   lettre minuscule latine g
104  150  68  h   0068      h   lettre minuscule latine h
105  151  69  i   0069      i   lettre minuscule latine i
106  152  6a  j   006A      j   lettre minuscule latine j
107  153  6b  k   006B      k   lettre minuscule latine k
108  154  6c  l   006C      l   lettre minuscule latine l
109  155  6d  m   006D      m   lettre minuscule latine m
110  156  6e  n   006E      n   lettre minuscule latine n
111  157  6f  o   006F      o   lettre minuscule latine o
112  160  70  p   0070      p   lettre minuscule latine p
113  161  71  q   0071      q   lettre minuscule latine q
114  162  72  r   0072      r   lettre minuscule latine r
115  163  73  s   0073      s   lettre minuscule latine s
116  164  74  t   0074      t   lettre minuscule latine t
117  165  75  u   0075      u   lettre minuscule latine u
118  166  76  v   0076      v   lettre minuscule latine v
119  167  77  w   0077      w   lettre minuscule latine w
120  170  78  x   0078      x   lettre minuscule latine x
121  171  79  y   0079      y   lettre minuscule latine y
122  172  7a  z   007A      z   lettre minuscule latine z
123  173  7b  (!  007B      {   accolade gauche
124  174  7c  !!  007C      |   barre verticale
125  175  7d  !)  007D      }   accolade droite
126  176  7e  '?  007E      ~   tilde
127  177  7f  DT  007F          del suppression
128  200  80  PA  0080          pad caractère de bourre
129  201  81  HO  0081          hop octet supérieur prédéfini
130  202  82  BH  0082          bph arrêt permis ici
131  203  83  NH  0083          nbh aucun arrêt ici
132  204  84  IN  0084          ind index
133  205  85  NL  0085          nel à la ligne
134  206  86  SA  0086          ssa début de zone sélectionnée
135  207  87  ES  0087          esa fin de zone sélectionnée
136  210  88  HS  0088          hts arrêt de tabulateur horizontal
137  211  89  HJ  0089          htj tabulateur horizontal avec justification
138  212  8a  VS  008A          vts arrêt de tabulateur vertical
139  213  8b  PD  008B          pld interligne partiel vers le bas
140  214  8c  PU  008C          plu interligne partiel vers le haut
141  215  8d  RI  008D          ri index inversé
142  216  8e  S2  008E          ss2 remplacement unique deux
143  217  8f  S3  008F          ss3 remplacement unique trois
144  220  90  DC  0090          dcs chaîne de commande d'appareil
145  221  91  P1  0091          pu1 usage privé un
146  222  92  P2  0092          pu2 usage privé deux
147  223  93  TS  0093          sts mise en mode transmission
148  224  94  CC  0094          cch annulation du caractère précédent
149  225  95  MW  0095          mw message en attente
150  226  96  SG  0096          sga début de zone protégée
151  227  97  EG  0097          ega fin de zone protégée
152  230  98  SS  0098          sos début de chaîne
153  231  99  GC  0099          sgci introducteur de caractère graphique unique
154  232  9a  SC  009A          sci introducteur de caractère unique
155  233  9b  CI  009B          csi introducteur de séquence de commande
156  234  9c  ST  009C          st fin de chaîne
157  235  9d  OC  009D          osc commande de système d'exploitation
158  236  9e  PM  009E          pm message privé
159  237  9f  AC  009F          apc commande de progiciel
160  240  a0  NS  00A0      /_  espace insécable
161  241  a1      0181      B[  lettre maj. latine B crosse
162  242  a2      018A      D[  lettre maj. latine D crosse
163  243  a3      0194      G]  lettre maj. latine Gamma
164  244  a4      0198      K[  lettre maj. latine K crosse
165  245  a5      01A4      P[  lettre maj. latine P crosse
166  246  a6      01AC      T[  lettre maj. latine T crosse
167  247  a7      01A9      S]  lettre maj. latine ESH
168  250  a8      019D      N]  lettre maj. latine N hameçon (enj)
169  251  a9      014A      N[  lettre maj. latine ENG (Sami)
170  252  aa      0189      D]  lettre maj. latine D africain (edh)
171  253  ab  <<  00AB      <<  guillemet angulaire double vers la gauche
172  254  ac      0191      F]  lettre maj. latine F hameçon
173  255  ad  --  00AD      \-  tiret conditionnel (trait d'union virtuel)
174  256  ae      01B3      Y[  lettre maj. latine Y crosse
175  257  af      0193      G[  lettre maj. latine G crosse
176  260  b0  DG  00B0      _DG symbole degré
177  261  b1      0253      b[  lettre min. latine b crosse
178  262  b2      0257      d[  lettre min. latine d crosse
179  263  b3      0263      g]  lettre min. latine gamma
180  264  b4      0199      k[  lettre min. latine k crosse
181  265  b5      01A5      p[  lettre min. latine p crosse
182  266  b6      01AD      t[  lettre min. latine t crosse
183  267  b7      0283      s]  lettre min. latine esh
184  270  b8      0272      n]  lettre min. latine n hameçon à gauche (enj)
185  271  b9      014B      n[  lettre min. latine eng (Sami)
186  272  ba      0256      d]  lettre min. latine d hameçon rétroflexe
187  273  bb  >>  00BB      >>  guillemet angulaire double vers la droite
188  274  bc      0192      f]  lettre min. latine f hameçon
189  275  bd      0294      ?^  lettre latine coup de glotte
190  276  be      01B4      y[  lettre min. latine y crosse
191  277  bf      0260      g[  lettre min. latine g crosse
192  300  c0  A!  00C0      A`  lettre maj. latine A accent grave
193  301  c1  A'  00C1      A\' lettre maj. latine A accent aigu
194  302  c2  A>  00C2      A^  lettre maj. latine A accent circonflexe
195  303  c3  A?  00C3      A~  lettre maj. latine A tilde
196  304  c4  A:  00C4      A"  lettre maj. latine A tréma
197  305  c5      018E      E<  lettre maj. latine E réfléchi (schwa)
198  306  c6  AE  00C6      AE+ lettre maj. latine AE (ligature
199  307  c7  C,  00C7      C\, lettre maj. latine C cédille
200  310  c8  E!  00C8      E`  lettre maj. latine E accent grave
201  311  c9  E'  00C9      E\' lettre maj. latine E accent aigu
202  312  ca  E>  00CA      E^  lettre maj. latine E accent circonflexe
203  313  cb  E:  00CB      E"  lettre maj. latine E tréma
204  314  cc  I!  00CC      I`  lettre maj. latine I accent grave
205  315  cd  I'  00CD      I\' lettre maj. latine I accent aigu
206  316  ce  I>  00CE      I^  lettre maj. latine I accent circonflexe
207  317  cf  I:  00CF      I"  lettre maj. latine I tréma
208  320  d0      0190      E[  lettre maj. latine E ouvert
209  321  d1  N?  00D1      N~  lettre maj. latine N tilde
210  322  d2  O!  00D2      O`  lettre maj. latine O accent grave
211  323  d3  O'  00D3      O\' lettre maj. latine O accent aigu
212  324  d4  O>  00D4      O^  lettre maj. latine O accent circonflexe
213  325  d5  O?  00D5      O~  lettre maj. latine O tilde
214  326  d6  O:  00D6      O"  lettre maj. latine O tréma
215  327  d7      0152      OE+ digramme soudé maj. latin OE (ligature OE)
216  330  d8      0186      O[  lettre maj. latine O ouvert
217  331  d9  U!  00D9      U`  lettre maj. latine U accent grave
218  332  da  U'  00DA      U\' lettre maj. latine U accent aigu
219  333  db  U>  00DB      U^  lettre maj. latine U accent circonflexe
220  334  dc  U:  00DC      U"  lettre maj. latine U tréma
221  335  dd      018E+0301 E<' lettre maj. latine E réfléchi accent aigu
222  336  de      0186+0301 O[' lettre maj. latine O ouvert accent aigu
223  337  df      01B2      V[  lettre maj. latine V crosse
224  340  e0  a!  00E0      a`  lettre min. latine a accent grave
225  341  e1  a'  00E1      a\' lettre min. latine a accent aigu
226  342  e2  a>  00E2      a^  lettre min. latine a accent circonflexe
227  343  e3  a?  00E3      a~  lettre min. latine a tilde
228  344  e4  a:  00E4      a"  lettre min. latine a tréma
229  345  e5      0259      e<  lettre min. latine schwa (e culbuté)
230  346  e6  ae  00E6      ae+ lettre min. latine ae
231  347  e7  c,  00E7      c\, lettre min. latine c cédille
232  350  e8  e!  00E8      e`  lettre min. latine e accent grave
233  351  e9  e'  00E9      e\' lettre min. latine e accent aigu
234  352  ea  e>  00EA      e^  lettre min. latine e accent circonflexe
235  353  eb  e:  00EB      e"  lettre min. latine e tréma
236  354  ec  i!  00EC      i`  lettre min. latine i accent grave
237  355  ed  i'  00ED      i\' lettre min. latine i accent aigu
238  356  ee  i>  00EE      i^  lettre min. latine i accent circonlexe
239  357  ef  i:  00EF      i"  lettre min. latine i tréma
240  360  f0      025B      e[  lettre min. latine e ouvert
241  361  f1  n?  00F1      n~  lettre min. latine n tilde
242  362  f2  o!  00F2      o`  lettre min. latine o accent grave
243  363  f3  o'  00F3      o\' lettre min. latine o accent aigu
244  364  f4  o>  00F4      o^  lettre min. latine o accent circonflexe
245  365  f5  o?  00F5      o~  lettre min. latine o tilde
246  366  f6  o:  00F6      o"  lettre min. latine o tréma
247  367  f7      0153      oe+ digramme soudé min. latin oe (ligature oe)
248  370  f8      0254      o[  lettre min. latine o ouvert
249  371  f9  u!  00F9      u`  lettre min. latine u accent grave
250  372  fa  u'  00FA      u\' lettre min. latine u accent aigu
251  373  fb  u>  00FB      u^  lettre min. latine u accent circonflexe
252  374  fc  u:  00FC      u"  lettre min. latine u tréma
253  375  fd      0259+0301 e<' lettre min. latine schwa accent aigu
254  376  fe      0254+0301 o[' lettre min. latine o ouvert accent aigu
255  377  ff      028B      v[  lettre min. latine v de ronde

Annexe 3 - Jeu de caractères AFRLIN

Les jeux de caractères africains afrlin permettent de couvrir les alphabets du français, du lingala, du sango et du wolof. Le jeu de caractères AFRLIN-104-BPI_OCIL représente un jeu de caractères, en version encodée, qui est utilisé pour l'affichage à l'écran des langues africaines suivantes: le lingala, le sango, le wolof. Les noms alias acceptables pour désigner ce jeu de caractères encodés sont afrlin104bpiocil, lingala, sango, wolof, ou lin.

Le jeu de caractères AFRLIN-105-BPI_OCIL représente un jeu de caractères, en version translittérée, qui est utilisé pour l'encodage au clavier des langues africaines suivantes: le lingala, le sango, le wolof. Les noms alias acceptables pour désigner ce jeu de caractères translittérés sont afrlin105bpiocil, tlingala, tsango, twolof ou tlin. Pour chacun des 255 caractères présentés dans la liste plus bas, voici la signification de chacune des colonnes :

Dec
indique la valeur décimale du caractère;
Oct
indique la valeur octale du caractère;
Hex
indique la valeur hexadécimale du caractère;
Mne
fournit le code mnémotechnique à deux lettres de la norme RFC 1345;
UCS2
indique la valeur UCS du caractère;
Kbd
fournit la convention d'encodage au clavier de ce caractère;
AFRLIN-104-BPI_OCIL
donne le nom du caractère, si possible en français, conformément à la norme ISO 10646.

Dec  Oct Hex  Mne UCS2     Kbd  AFRLIN-104-BPI_OCIL

  0  000  00  NU  0000          nul nul
  1  001  01  SH  0001          soh début d'en-tête
  2  002  02  SX  0002          stx début de texte
  3  003  03  EX  0003          etx fin de texte
  4  004  04  ET  0004          eot fin de transmission
  5  005  05  EQ  0005          enq demande
  6  006  06  AK  0006          ack accusé de réception positif
  7  007  07  BL  0007          bel sonnerie
  8  010  08  BS  0008          bs espace arrière
  9  011  09  HT  0009          ht tabulation horizontale
 10  012  0a  LF  000A          lf interligne
 11  013  0b  VT  000B          vt tabulation verticale
 12  014  0c  FF  000C          ff page suivante
 13  015  0d  CR  000D          cr retour de chariot
 14  016  0e  SO  000E          so hors code
 15  017  0f  SI  000F          si en code
 16  020  10  DL  0010          dle échappement transmission
 17  021  11  D1  0011          dc1 commande d'appareil un
 18  022  12  D2  0012          dc2 commande d'appareil deux
 19  023  13  D3  0013          dc3 commande d'appareil trois
 20  024  14  D4  0014          dc4 commande d'appareil quatre
 21  025  15  NK  0015          nak accusé de réception négatif
 22  026  16  SY  0016          syn synchronisation
 23  027  17  EB  0017          etb fin de transmission de bloc
 24  030  18  CN  0018          can annulation
 25  031  19  EM  0019          em fin de support
 26  032  1a  SB  001A          sub caractère de substitution
 27  033  1b  EC  001B          esc échappement
 28  034  1c  FS  001C          is4 séparateur de fichier
 29  035  1d  GS  001D          is3 séparateur de groupe
 30  036  1e  RS  001E          is2 séparateur d'article
 31  037  1f  US  001F          is1 séparateur de sous-article
 32  040  20  SP  0020      < > espace
 33  041  21  !   0021      !   point d'exclamation
 34  042  22  "   0022      "   guillemet
 35  043  23  Nb  0023      #   dièse-symbole numéro (croisillon)
 36  044  24  DO  0024      $   symbole dollar
 37  045  25  %   0025      %   symbole pour cent
 38  046  26  &   0026      &   perluète
 39  047  27  '   0027      '   apostrophe
 40  050  28  (   0028      (   parenthèse gauche
 41  051  29  )   0029      )   parenthèse droite
 42  052  2a  *   002A      *   astérisque
 43  053  2b  +   002B      +   signe plus
 44  054  2c  ,   002C      ,   virgule
 45  055  2d  -   002D      -   tiret-trait d'union, signe moins
 46  056  2e  .   002E      .   point
 47  057  2f  /   002F      /   barre oblique
 48  060  30  0   0030      0   chiffre zéro
 49  061  31  1   0031      1   chiffre un
 50  062  32  2   0032      2   chiffre deux
 51  063  33  3   0033      3   chiffre trois
 52  064  34  4   0034      4   chiffre quatre
 53  065  35  5   0035      5   chiffre cinq
 54  066  36  6   0036      6   chiffre six
 55  067  37  7   0037      7   chiffre sept
 56  070  38  8   0038      8   chiffre huit
 57  071  39  9   0039      9   chiffre neuf
 58  072  3a  :   003A      :   deux-points
 59  073  3b  ;   003B      ;   point-virgule
 60  074  3c  <   003C      <   signe inférieur à
 61  075  3d  =   003D      =   signe égal à
 62  076  3e  >   003E      >   signe supérieur à
 63  077  3f  ?   003F      ?   point d'interrogation
 64  100  40  At  0040      @   a commercial-arobase
 65  101  41  A   0041      A   lettre majuscule latine A
 66  102  42  B   0042      B   lettre majuscule latine B
 67  103  43  C   0043      C   lettre majuscule latine C
 68  104  44  D   0044      D   lettre majuscule latine D
 69  105  45  E   0045      E   lettre majuscule latine E
 70  106  46  F   0046      F   lettre majuscule latine F
 71  107  47  G   0047      G   lettre majuscule latine G
 72  110  48  H   0048      H   lettre majuscule latine H
 73  111  49  I   0049      I   lettre majuscule latine I
 74  112  4a  J   004A      J   lettre majuscule latine J
 75  113  4b  K   004B      K   lettre majuscule latine K
 76  114  4c  L   004C      L   lettre majuscule latine L
 77  115  4d  M   004D      M   lettre majuscule latine M
 78  116  4e  N   004E      N   lettre majuscule latine N
 79  117  4f  O   004F      O   lettre majuscule latine O
 80  120  50  P   0050      P   lettre majuscule latine P
 81  121  51  Q   0051      Q   lettre majuscule latine Q
 82  122  52  R   0052      R   lettre majuscule latine R
 83  123  53  S   0053      S   lettre majuscule latine S
 84  124  54  T   0054      T   lettre majuscule latine T
 85  125  55  U   0055      U   lettre majuscule latine U
 86  126  56  V   0056      V   lettre majuscule latine V
 87  127  57  W   0057      W   lettre majuscule latine W
 88  130  58  X   0058      X   lettre majuscule latine X
 89  131  59  Y   0059      Y   lettre majuscule latine Y
 90  132  5a  Z   005A      Z   lettre majuscule latine Z
 91  133  5b  <(  005B      [   crochet gauche
 92  134  5c  //  005C      \   barre oblique inversée
 93  135  5d  )>  005D      ]   crochet droit
 94  136  5e  '>  005E      ^   accent circonflexe
 95  137  5f  _   005F      _   trait bas
 96  140  60  '!  0060      `   accent grave
 97  141  61  a   0061      a   lettre minuscule latine a
 98  142  62  b   0062      b   lettre minuscule latine b
 99  143  63  c   0063      c   lettre minuscule latine c
100  144  64  d   0064      d   lettre minuscule latine d
101  145  65  e   0065      e   lettre minuscule latine e
102  146  66  f   0066      f   lettre minuscule latine f
103  147  67  g   0067      g   lettre minuscule latine g
104  150  68  h   0068      h   lettre minuscule latine h
105  151  69  i   0069      i   lettre minuscule latine i
106  152  6a  j   006A      j   lettre minuscule latine j
107  153  6b  k   006B      k   lettre minuscule latine k
108  154  6c  l   006C      l   lettre minuscule latine l
109  155  6d  m   006D      m   lettre minuscule latine m
110  156  6e  n   006E      n   lettre minuscule latine n
111  157  6f  o   006F      o   lettre minuscule latine o
112  160  70  p   0070      p   lettre minuscule latine p
113  161  71  q   0071      q   lettre minuscule latine q
114  162  72  r   0072      r   lettre minuscule latine r
115  163  73  s   0073      s   lettre minuscule latine s
116  164  74  t   0074      t   lettre minuscule latine t
117  165  75  u   0075      u   lettre minuscule latine u
118  166  76  v   0076      v   lettre minuscule latine v
119  167  77  w   0077      w   lettre minuscule latine w
120  170  78  x   0078      x   lettre minuscule latine x
121  171  79  y   0079      y   lettre minuscule latine y
122  172  7a  z   007A      z   lettre minuscule latine z
123  173  7b  (!  007B      {   accolade gauche
124  174  7c  !!  007C      |   barre verticale
125  175  7d  !)  007D      }   accolade droite
126  176  7e  '?  007E      ~   tilde
127  177  7f  DT  007F          del suppression
128  200  80  PA  0080          pad caractère de bourre
129  201  81  HO  0081          hop octet supérieur prédéfini
130  202  82  BH  0082          bph arrêt permis ici
131  203  83  NH  0083          nbh aucun arrêt ici
132  204  84  IN  0084          ind index
133  205  85  NL  0085          nel à la ligne
134  206  86  SA  0086          ssa début de zone sélectionnée
135  207  87  ES  0087          esa fin de zone sélectionnée
136  210  88  HS  0088          hts arrêt de tabulateur horizontal
137  211  89  HJ  0089          htj tabulateur horizontal avec justification
138  212  8a  VS  008A          vts arrêt de tabulateur vertical
139  213  8b  PD  008B          pld interligne partiel vers le bas
140  214  8c  PU  008C          plu interligne partiel vers le haut
141  215  8d  RI  008D          ri index inversé
142  216  8e  S2  008E          ss2 remplacement unique deux
143  217  8f  S3  008F          ss3 remplacement unique trois
144  220  90  DC  0090          dcs chaîne de commande d'appareil
145  221  91  P1  0091          pu1 usage privé un
146  222  92  P2  0092          pu2 usage privé deux
147  223  93  TS  0093          sts mise en mode transmission
148  224  94  CC  0094          cch annulation du caractère précédent
149  225  95  MW  0095          mw message en attente
150  226  96  SG  0096          sga début de zone protégée
151  227  97  EG  0097          ega fin de zone protégée
152  230  98  SS  0098          sos début de chaîne
153  231  99  GC  0099          sgci introducteur de caractère graphique unique
154  232  9a  SC  009A          sci introducteur de caractère unique
155  233  9b  CI  009B          csi introducteur de séquence de commande
156  234  9c  ST  009C          st fin de chaîne
157  235  9d  OC  009D          osc commande de système d'exploitation
158  236  9e  PM  009E          pm message privé
159  237  9f  AC  009F          apc commande de progiciel
160  240  a0  NS  00A0      /_   espace insécable
161  241  a1      0190+0300 E[`  lettre maj. latine E ouvert accent grave
162  242  a2      0190+0301 E['  lettre maj. latine E ouvert accent aigu
163  243  a3      0190+0302 E[^  lettre maj. latine E ouvert accent circonflexe
164  244  a4      0190+030C E[\v lettre maj. latine E ouvert caron
165  245  a5      0186+0300 O[`  lettre maj. latine O ouvert accent grave
166  246  a6      0186+0301 O['  lettre maj. latine O ouvert accent aigu
167  247  a7      0186+0302 O[^  lettre maj. latine O ouvert accent circonflexe
168  250  a8      019D      N]   lettre maj. latine N hameçon (ENJ)
169  251  a9      014A      N[   lettre maj. latine ENG (Sami)
170  252  aa      004E+0302 N^   lettre maj. latine N accent circonflexe
171  253  ab  <<  00AB      <<   guillemet gauche
172  254  ac      004E+0308 N"   lettre maj. latine N tréma
173  255  ad  --  00AD      \-   trait d'union virtuel (tiret conditionnel)
174  256  ae      01B3      Y[   lettre maj. latine Y crosse
175  257  af      0186+030C O[\v lettre maj. latine O ouvert caron
176  260  b0      00B0      _DG  symbole degré
177  261  b1      025B+0300 e[`  lettre min. latine e ouvert accent grave
178  262  b2      025B+0301 e['  lettre min. latine e ouvert accent aigu
179  263  b3      025B+0302 e[^  lettre min. latine e ouvert accent circonflexe
180  264  b4      025B+030C e[\v lettre min. latine e ouvert caron
181  265  b5      0254+0300 o[`  lettre min. latine o ouvert accent grave
182  266  b6      0254+0301 o['  lettre min. latine o ouvert accent aigu
183  267  b7      0254+0302 o[^  lettre min. latine o ouvert circonflexe
184  270  b8      0272      n]   lettre min. latine n hameçon à gauche (enj)
185  271  b9      014B      n[   lettre min. latine eng (Sami)
186  272  ba      006E+0302 n^   lettre min. latine n circonflexe
187  273  bb   >> 00BB      >>   guillemet droit
188  274  bc      006E+0308 n"   lettre min. latine n tréma
189  275  bd      0294      ?^   lettre latine coup de glotte
190  276  be      01B4      y[   lettre minuscule latine y crosse
191  277  bf      0254+030C o[\v lettre min. latine o ouvert caron
192  300  c0   A! 00C0      A`   lettre maj. latine A accent grave
193  301  c1   A' 00C1      A\'  lettre maj. latine A accent aigu
194  302  c2   A> 00C2      A^   lettre maj. latine A accent circonflexe
195  303  c3      01CD      A\v  lettre maj. latine A caron
196  304  c4   A: 00C4      A"   lettre maj. latine A tréma
197  305  c5      018E      E<   lettre maj. latine E réfléchi
198  306  c6   AE 00C6      AE+  lettre maj. latine AE (ligature)
199  307  c7   C, 00C7      C\,  lettre maj. latine C cédille
200  310  c8   E! 00C8      E`   lettre maj. latine E accent grave
201  311  c9   E' 00C9      E\'  lettre maj. latine E accent aigu
202  312  ca   E> 00CA      E^   lettre maj. latine E accent circonflexe
203  313  cb   E: 00CB      E"   lettre maj. latine E tréma
204  314  cc   I! 00CC      I`   lettre maj. latine I accent grave
205  315  cd   I' 00CD      I\'  lettre maj. latine I accent aigu
206  316  ce   I> 00CE      I^   lettre maj. latine I accent circonflexe
207  317  cf   I: 00CF      I"   lettre maj. latine I tréma
208  320  d0      0190      E[   lettre maj. latine E ouvert
209  321  d1   N? 00D1      N~   lettre maj. latine N tilde
210  322  d2   O! 00D2      O`   lettre maj. latine O accent grave
211  323  d3   O' 00D3      O\'  lettre maj. latine O accent aigu
212  324  d4   O> 00D4      O^   lettre maj. latine O accent circonflexe
213  325  d5   O? 01D1      O\v  lettre maj. latine O caron
214  326  d6   O: 00D6      O"   lettre maj. latine O tréma
215  327  d7      0152      OE+  digramme soudé maj. latin OE (ligature OE)
216  330  d8      0186      O[   lettre maj. latine O ouvert
217  331  d9   U! 00D9      U`   lettre maj. latine U accent grave
218  332  da   U' 00DA      U\'  lettre maj. latine U accent aigu
219  333  db   U> 00DB      U^   lettre maj. latine U accent circonflexe
220  334  dc   U: 00DC      U"   lettre maj. latine U tréma
221  335  dd      011A      E\v  lettre maj. latine E caron
222  336  de      01CF      I\v  lettre maj. latine I caron
223  337  df      01D3      U\v  lettre maj. latine U caron
224  340  e0   a! 00E0      a`   lettre min. latine a accent grave
225  341  e1   a' 00E1      a\'  lettre min. latine a accent aigu
226  342  e2   a> 00E2      a^   lettre min. latine a accent circonflexe
227  343  e3      01CE      a\v  lettre min. latine a caron
228  344  e4   a: 00E4      a"   lettre min. latine a tréma
229  345  e5      0259      e<   lettre minuscule latine schwa (e culbuté)
230  346  e6   ae 00E6      ae+  lettre min. latine ae (ligature ae)
231  347  e7   c, 00E7      c\,  lettre min. latine c cédille
232  350  e8   e! 00E8      e`   lettre min. latine e accent grave
233  351  e9   e' 00E9      e\'  lettre min. latine e accent aigu
234  352  ea   e> 00EA      e^   lettre min. latine e accent circonflexe
235  353  eb   e: 00EB      e"   lettre min. latine e tréma
236  354  ec   i! 00EC      i`   lettre min. latine i accent grave
237  355  ed   i' 00ED      i\'  lettre min. latine i accent aigu
238  356  ee   i> 00EE      i^   lettre min. latine i accent circonlexe
239  357  ef   i: 00EF      i"   lettre min. latine i tréma
240  360  f0      025B      e[   lettre min. latine e ouvert
241  361  f1   n? 00F1      n~   lettre min. latine n tilde
242  362  f2   o! 00F2      o`   lettre min. latine o accent grave
243  363  f3   o' 00F3      o\'  lettre min. latine o accent aigu
244  364  f4   o> 00F4      o^   lettre min. latine o accent circonflexe
245  365  f5      01D2      o\v  lettre min. latine o caron
246  366  f6   o: 00F6      o"   lettre min. latine o tréma
247  367  f7      0153      oe+  digramme soudé min. latin oe (ligature oe)
248  370  f8      0254      o[   lettre min. latine o ouvert
249  371  f9   u! 00F9      u`   lettre min. latine u accent grave
250  372  fa   u' 00FA      u\'  lettre min. latine u accent aigu
251  373  fb   u> 00FB      u^   lettre min. latine u accent circonflexe
252  374  fc   u: 00FC      u"   lettre min. latine u tréma
253  375  fd      011B      e\v  lettre min. latine e caron
254  376  fe      01D0      i\v  lettre min. latine i caron
255  377  ff      01D4      u\v  lettre min. latine u caron

Fontes EC et FC de Jörg Knappen

Les trois tableaux suivants permettent de donner un aperçu du jeu de caractères des fontes EC et des fontes FC. Pour plus de détails sur ces fontes, consultez Knappen [1998a] et Knappen [1998b].

Fontes EC et FC de Knappen (000 à 127)

Table EC bas

Fontes EC de Knappen (128 à 255)

Table EC haut

Fontes FC de Knappen (128 à 255)

Cette fonte fc de Knappen permet de couvrir la typographie des 40 langues africaines suivantes: akan, bamileke, basa (kru), bemba, ciokwe, dinka, dholuo (luo), efik, ewe-fon, fulani (fulful), gã, gbaya, hausa, igbo, kanuri, kikuyu, kikongo, kpelle, krio, luba, mandekan (bambara), mende, more, ngala, nyanja, oromo, rundi, kinya rwanda, sango, serer, shona, somali, songhai, sotho, suaheli, tiv, yao, yoruba, xhosa, zulu.

Table FC haut

Bibliographie

ADOBE SYSTEMS INCORPORATED, [1987a]
PostScript Language - Tutorial and Cookbook, Addison-Wesley Publishing Company Inc., Reading Massachusetts, ISBN 0-201-10179-3, 1987, 243 p.
ADOBE SYSTEMS INCORPORATED, [1987b]
PostScript Language - Reference Manual, Addison-Wesley Publishing Company Inc., Reading Massachusetts, ISBN 0-201-10174-2, 1987, 321 p.
BAUER Bodo, BERLICH Rdiger, BISCHOF Daniel, allii, [1999]
SuSE Linux 6.1 - Installation, Configuration and First Steps, SuSE Gmbh, Schanzäckerstraße 10, 90443 Nürnberg, Germany, Edition 1999, 440 P. http://www.suse.de
BAUER Bodo, BISLER Alexander, BURGHART Michael, allii, [1996]
S.u.S.E. Linux 4.4 - Installation, Configuration and First Steps, S.u.S.E. Gmbh, Gebhardstr. 2, D-90762 Fürth, Germany, November 1996. http://www.suse.de
BOURBEAU Laurent [1999a]
Progiciels de TCAO (version 1.1) - Manuel d'utilisateur pour Alibi, Concorde, Free recode, Ventile et Vocable, Progiciels Bourbeau-Pinard inc., Montréal, 30 juin 1999, 245 P.
BOURBEAU Laurent, [1999b]
Édition électronique de langues africaines - PAO d'un corpus multilingue contenant les langues suivantes: français, bambara, éwondo, fulfulde, lingala, sango, wolof, Progiciels Bourbeau-Pinard inc., Montréal, 20 janvier 1999, 67 p.
CHASSELL Robert J, STALLMAN Richard M., [1995]
Texinfo - The GNU Documentation Format, Edition 2.20, Version Three, Free Software Foundations, Cambridge, MA 02139, USA, February 1995, 244 p.
CLARK James, [1998]
NSGMLS - An SGML System Conforming to International Standard ISO-8879 - Standard Generalized Markup Language, voir le site Web http://www.jclark.com/sp/howtoget.htm
GOLDFARB Charles F., [1990]
The SGML Handbook, Edited by Yuri Rubinsky, Clarendon Press, Oxford, ISBN 0-19-853737-1, 1990, 663 p.
HEKMAN Jessica Perry, [1997]
LINUX in a Nutshell - A Desktop Quick Reference, Published by O'Reilly & Associates Inc., 101 Morris Street, Sebastopol, CA 95472 USA, January 1997, ISBN 1-56592-167-4, 424 p.
KNAPPEN Jörg, [1998a]
European Computer Modern Fonts (ec), Mainz, Allemagne. Voir le site d'archive CTAN http://ftp.dante.de ou le site mirroir http://theory.uwinnipeg.ca/cgi-bin/CTAN/fonts/jknappen/ec/
KNAPPEN Jörg, [1998b]
African Computer Modern Fonts (fc), Mainz, Allemagne. Voir le site d'archive CTAN http://ftp.dante.de ou le site mirroir http://theory.uwinnipeg.ca/cgi-bin/CTAN/fonts/jknappen/fc/
ISO 639
Code pour la représentation des noms de langue - Code Alpha-2
Code for the representation of names of languages - Alpha-2 Code, Norme internationale ISO 639:1988, Édition 1, TC37, 17 p.
ISO 639-2
Code pour la représentation des noms de langue - Code Alpha-3
Code for the representation of names of languages - Alpha-3 Code, Norme internationale ISO 639-2:1995 CD, TC37.
ISO 646
Technologies de l'information - Jeu ISO de caractères codés à 7 éléments pour l'échange d'informations
Information processing - ISO 7-bit coded character set for information interchange, Norme internationale ISO/IEC 646:1991, Édition 3, JTC1/SC2, 15 p.
ISO 3166
Code pour la représentation des noms de pays, Norme internationale ISO 3166:1993, Édition 4, TC46, 30 p.
ISO 6438
Information et documentation - Jeu de caractères africains codés pour l'échange d'informations bibliographiques
Information and documentation - African coded character set for bibliographic information interchange, Norme internationale ISO 6438:1983-08-01, TC46/SC4.
ISO 8859
Traitement de l'information - Jeux de caractères graphiques codés sur un seul octet
Information processing - 8-bit Single-Byte Coded Graphic Character Sets, Norme internationale ISO 8859, JTC1/SC2:
8859-1:1987    Éd.1    7p. (D)  JTC1/SC2. Alphabet latin no. 1.
8859-2:1987    Éd.1    6p. (C)  JTC1/SC2. Alphabet latin no. 2.
8859-3:1988    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin no. 3.
8859-4:1988    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin no. 4.
8859-5:1988    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin/cyrillique.
8859-6:1987    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin/arabe.
8859-7:1987    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin/grec.
8859-8:1988    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin/hébreu.
8859-9:1989    Éd.1    5p. (C)  JTC1/SC2. Alphabet latin no. 5.
8859-10:1992   Éd.1   15p. (H)  JTC1/SC2. Alphabet latin no. 6.
ISO 8879:1988
Traitement de l'information - Systèmes bureautiques - Langage normaliséde balisage généralisé (SGML)
Information processing - Text and Office Systems - Standard Generalized Markup Language (SGML) - Appendice 1, Norme internationale ISO 8879:1988, JTC1/SC18, Édition 1.
ISO 8879:1986
Traitement de l'information - Systèmes bureautiques - Langage normalisé de balisage généralisé (SGML)
Information processing - Text and Office Systems - Standard Generalized Markup Language (SGML), Norme internationale ISO 8879:1986, Édition 1, JTC1/SC18, 155 p.
ISO 10646
Technologies de l'information - Jeu universel de caractères codés à plusieurs octets - Partie 1: Architecture et table multilingue
Information technology - Universal Multiple-Octet Coded Character Set (UCS) - Part 1: Architecture and Basic Multilingual Plane, Norme internationale ISO/IEC 10646-1:1993, Édition 1, JTC1/SC2, 754 p.
ISO/CEI 14651
Classement international de chaînes de caractères - Méthode de comparaison de chaînes de caractères et description d'un ordre implicite adaptable pour les chaînes de caractères utilisant le répertoire (ou des sous-répertoires) de la norme internationale ISO/CEI 10646, ISO/CEI DT4.3 14651
International String Ordering-Method for comparing Character Strings and Description of a Default Tailorable Ordering, for Characters Strings Using the repertoire (or subrepertoires) of ISO/IEC 10646, ISO/IEC WD4.3 14651, Alain LaBonté (rédacteur), 1996-03-18.
ISO/IEC 14652
Technologies de l'information - Spécifications des conventions culturelles
Information technology - Specifications for Cultural Conventions, Norme ISO/IEC WD9 14652, ISO/IEC JTC/SC22/WG20, Keld Simonsen (rédacteur), Working Draft 9, 1997-12-01.
KNUTH Donald E., [1993]
The TeX book, Addison-Wesley Publishing Company, Reading, Massachusetts, USA, February 1992, 483 p.
KNUTH Donald E., [1992]
The METAFONT book, Addison-Wesley Publishing Company, Reading, Massachusetts, USA, February 1992, 361 p.
LABONTÉ Alain, [1988]
Règles du classement alphabétique en langue française et procédure informatisée pour le tri, Ministère des communications du Québec, 1988. ISBN 2-550-19046-7.
LABONTÉ Alain, [1989]
Technique de réduction - Tris informatiques à quatre clés, Ministère des communications du Québec, Juin 1989, ISBN 2-550-19965-0.
LUNDE Ken, [1999]
CJKV Information Processing - Chinese, Japanese, Korean & Vietnamese Computing, Published by O'Reilly & Associates Inc., 101 Morris Street, Sebastopol, CA 95472, January 1999, 1101 p., ISBN 1-56592-224-7.
MICROSOFT CORPORATION, [1995]
Microsoft Windows95 Resource Kit, Microsoft Professional Editions, Published by Microsoft Press, Redmond, Washington, 1348 p.
MICROSOFT CORPORATION, [1994]
Microsoft MS-DOS 6.22 - Guide de l'utilisateur, Microsoft Corporation, Redmond, Washington, 257 p.
MICROSOFT CORPORATION, [1991]
Microsoft MS-DOS Operating System 5.0 - User's Guide and Reference, Microsoft Corporation, Redmond, Washington, 668 p.
PINARD François [1999]
Free recode - The character set converter, (Version 3.4q), Montréal (Québec) Canada, juin 1999.
PINARD François, BOURBEAU Laurent [1999]
Free recode - Le convertisseur de jeux de caractères, (Version 3.4q), Progiciels Bourbeau-Pinard inc., Montréal, 30 juin 1999, 107 p.
RFC 822 - CROCKER, D.
Standard for the Format of ARPA Internet Text Messages, STD 11, RFC 822, UDEL, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, August 1982.
RFC 1345 - SIMONSEN, K.
Character Mnemonics & Character Sets, Rationel Almen Planlaegning, RFC 1345, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, June 1992, 103 p.
RFC 1428 - VAUDREUIL, G.
Transition of Internet Mail from Just-Send-8 to 8bit-SMTP/MIME, CNRI, RFC 1428, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, February 1993.
RFC 1456 - VIETNAMESE STANDARDIZATION WORKING GROUP
Conventions for Encoding the Vietnamese Language VISCII: Vietnamese Standard Code for Information Interchange VIQR: VIetnamese Quoted-Readable Specification Revision 1.1, RFC 1456, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, May 1993.
RFC 1468 - MURAI, J., CRISPIN, M., E. van der POEL
Japanese Character Encoding for Internet Messages, Keio University, Panda Programming, RFC 1468, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, June 1993.
RFC 1489 - CHERNOV, A.
Registration of a Cyrillic Character Set, RELCOM Development Team, RFC 1489, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, July 1993.
RFC 1521 - BORENSTEIN N., N. FREED
MIME (Multipurpose Internet Mail Extensions) Part One: Mechanisms for Specifying and Describing the Format of Internet Message Bodies, Bellcore, Innosoft, RFC 1521, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, September 1993.
RFC 1522 - MOORE, K.
Representation of Non-Ascii Text in Internet Message Headers, University of Tennessee, RFC 1522, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, September 1993.
RFC 1554 - OHTA, M., K. HANDA
ISO-2022-JP-2: Multilingual Extension of ISO-2022-JP, Tokyo Institute of Technology, ETL, RFC 1554, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, December 1993.
RFC 1556 - NUSSBACHER, H.
Handling of Bi-directional Texts in MIME, Israeli Inter-University, RFC 1556, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, December 1993.
RFC 1557 - CHOI, U., CHON, K., H. PARK
Korean Character Encoding for Internet Messages, KAIST, Solvit Chosun Media, RFC 1557, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, December 1993.
RFC 1641 - GOLDSMITH, D., M. DAVIS
Using Unicode with MIME, Taligent Inc., RFC 1641, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, July 1994.
RFC 1642 - GOLDSMITH, D., M. DAVIS
UTF-7, Taligent Inc., RFC 1642, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, July 1994.
RFC 1866 - BERNERS-LEE Tim, D. CONNOLLY
Hypertext Markup Language - 2.0 (HTML): An SGML Application Corforming to International Standard ISO 8879 - Standard Generalized Markup Language, HTML Specification, Version 2.0, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, November 1995.
RFC 2070 - YERGEAU F., NICOL G., ADAMS G., DUERST M.
Internationalization of the Hypertext Markup Language, Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, January 1997. (Status: Proposed Standard)
RFC 2279 - YERGEAU François
UTF-8, a transformation format of ISO 10646, (Obsoletes RFC), Standard internet de l'Internet Engineering Task Force (IETF), Internet Society, January 1998. (Status: Proposed standard)
Société Internationale de Linguistique (SIL) [1993]
Alphabets de Langues Africaines, Édité par Rhonda L. Hartell, UNESCO - Bureau régional de Dakar, Société Internationale de Linguistique (SIL), Dakar, ISBN 92-9091-019-7, 1993, 311 p.
STALLMAN Richard M., [1996]
GNU Emacs Manual, Twelfth Edition, Version 19.33, Free Software Foundations, 59 Temple Place, Suite 330, Boston, MA 02111-1307 USA, ISBN 1-882114-05-1, 506 p.
UNICODE 1.1 - The Unicode Consortium
The Unicode Standard, Version 1.1, Version 1.0, Volume 1 (ISBN 0-201-56788-1), Version 1.0, Volume 2 (ISBN 0-201-60845-6),
Unicode Technical Report #4, The Unicode Standard, Version 1.1, (available from The Unicode Consortium, and soon to be published by Addison-Wesley).
US-ASCII
Coded Character Set - 7-bit American Standard Code for Information Interchange, ANSI X3.4-1986.
UTF-7 - GOLDSMITH, D., M. DAVIS
UTF-7: A Mail Safe Transformation Format of Unicode, RFC 1642, Taligent Inc., July 1994.
UTF-8 - X/Open Company Ltd.
File System Safe UCS Transformation Format (FSS_UTF), X/Open Preliminary Specification, Document Number: P316. This information also appears in Unicode Technical Report #4, and in a forthcoming annex to ISO/IEC 10646.
Accueil TCAO  |  Remerciements  |  Un aperçu  |  Licence BPI  |  Distribution  |  Installation  | 
Claviers  |  Pointeurs  |  Alibi  |  Concorde  |  Recode  |  Ventile  |  Vocable  |  Accueil BPI

http://progiciels-bpi.ca  |  bourbeau@progiciels-bpi.ca
Copyright ©  Progiciels Bourbeau Pinard inc., Montréal, 1999. Tous droits réservés / All rights reserved.