| |
|
Accueil TCAO |
Remerciements |
Un aperçu |
Licence BPI |
Distribution |
Installation |
Claviers | Pointeurs | Alibi | Concorde | Recode | Ventile | Vocable | Accueil BPI |
La communication et la culture de toute communauté passent par sa langue. Le génie d'une langue s'actualise dans ses textes écrits et sa littérature. Pour les spécialistes de la langue, les textes écrits sont en fait la matière première à partir de laquelle se fabriquent les grammaires et les dictionnaires d'une langue suite au dépouillement systématique de corpus de textes et à la classification des faits linguistiques.
Afin d'automatiser certaines tâches de dépouillement de cette matière première, la société Progiciels Bourbeau Pinard inc. (BPI) a développé une suite de cinq progiciels de traitement de corpus assisté par ordinateur (TCAO). Pour vous donner un aperçu de cette technologie de TCAO, ce document tente de faire ressortir les principales caractéristiques techniques de ces progiciels de TCAO.
Ce document présente une suite de cinq progiciels de traitement de corpus assisté par ordinateur (TCAO) qui sont désignés à l'aide des noms suivants: Alibi, Concorde, Recode, Ventile, Vocable. Plus bas, le Tableau 1 fournit une brève description de ces cinq progiciels de TCAO.
| Progiciels | TABLEAU 1 - Description des progiciels de TCAO |
|---|---|
| Recode |
Recode est un progiciel de conversion automatique de jeux de caractères. Il permet de traiter et de recoder environ 175 jeux de caractères (charsets) différents et une douzaine de surfaces de fichiers. Selon la paire de charsets indiquée dans la commande d'appel (d'un charset de départ vers un charset d'arrivée), Recode effectue un recodage du ou des fichiers d'entrée. Puisque chaque charset peut être converti vers la plupart des 174 autres, plusieurs milliers de conversions différentes sont alors possibles. |
| Ventile |
Ventile est un progiciel de production de statistiques textuelles. Comme élément textuel, Ventile permet de compter le nombre de paragraphes, de phrases, de mots et de caractères par fichier. Comme statistiques textuelles, Ventile produit les mesures de fréquence absolue, trois mesures de tendance centrale (le mode, la médiane et la moyenne arithmétique) et cinq mesures de dispersion (le minimum, le maximum, l'écart quartile, l'écart moyen et l'écart type). Les résultats statistiques sont affichés numériquement sous la forme d'un tableau et graphiquement sous la forme d'un histogramme. |
| Vocable |
Vocable est un progiciel de production de listes de vocabulaire. Cet outil permet de dépouiller des textes et de fabriquer la liste des vocables actualisés dans ces textes. Ces listes peuvent être triées en ordre alphabétique habituel (de gauche à droite), en ordre alphabétique inverse (de droite à gauche) ou en ordre de fréquence décroissante. Chaque vocable peut être accompagné de la fréquence de ses occurrences et de la liste de toutes ses références textuelles pour chaque occurrence. |
| Concorde |
Concorde est un progiciel de production de concordances de mots en contexte. Cet outil permet de dépouiller des fichiers textuels et de produire une liste alphabétique des éléments-vedettes avec leur contexte immédiat. L'élément-vedette d'une concordance peut être basé sur les mots dans leurs contextes phrastiques ou sur les caractères dans leurs contextes de mots. Les mots-vedettes peuvent être triés en ordre alphabétique habituel ou en ordre alphabétique inverse. |
| Alibi |
Alibi est un progiciel d'alignement bi-textuel (ou bilingue). Cet outil permet de dépouiller en parallèle deux fichiers et d'aligner automatiquement les constituants textuels provenant de cette paire de fichiers. Comme constituants textuels, Alibi peut aligner les paragraphes, les phrases ou les mots de ces deux textes. |
Pour avoir un aperçu de l'ensemble des options possibles de ces cinq progiciels de TCAO, consultez l'Annexe 1 qui contient respectivement le menu d'aide de chaque progiciel. Pour avoir une idée générale de la syntaxe des commandes d'appel pour chacun de ces progiciels TCAO, consultez la sous-section Exemples de commandes TCAO.
Les droits d'auteur et tout autre droit de propriétés intellectuelles pour tout ce qui a été conçu, développé ou mis en application par Progiciels Bourbeau Pinard inc. pour les progiciels Alibi, Concorde, Recode, Ventile et Vocable sont dévolus à la société Progiciels Bourbeau Pinard inc. Ces cinq progiciels de TCAO NE SONT PAS DeES PARTAGICIELS ET ILS NE SONT PAS DU DOMAINE PUBLIC. Ces cinq progiciels sont distribués sous licence selon les modalités de la Licence BPI.
Avant de télécharger et d'utiliser ces progiciels de TCAO, vous devez prendre copie et lire attentivement la Licence BPI afin de reconnaître la notice de LIMITATION DE GARANTIE ainsi que les MODALITÉS de cette Licence BPI. Si vous décidez d'utiliser ensuite l'un ou l'autre de ces progiciels de TCAO, cela implique automatiquement que vous vous engagez à respecter l'ensemble des modalités de cette Licence BPI. Si vous respectez en tout temps cette Licence BPI, cela valide et confirme vos droits d'utilisation de ces progiciels de TCAO.
Advenant une quelconque redistribution par un tiers, tout utilisateur doit recevoir une copie intégrale de cette Licence BPI avec chaque copie de ces progiciels de TCAO afin que ce nouvel utilisateur puisse valider et confirmer son droit d'utilisation de ces progiciels de TCAO.
Ces cinq progiciels de TCAO sont de type
multi-plateforme. Ils peuvent s'exécuter autant sur une plateforme
Unix/Linux que sur une plateforme
Windows (Windows95 ou
Windows98). Par conséquent, cela implique au total un
ensemble de 10 logiciels exécutables distincts, c'est-à-dire 5 progiciels
multiplié par 2 plateformes. Notons que sous Windows,
ces progiciels de TCAO doivent être exécutés pour l'instant dans une
fenêtre Shell MS-DOS.
Comme références techniques initiales au système d'exploitation Linux, voir Bauer &al. [1999], Bauer &al. [1996], et Hekman [1997]. Pour le système d'exploitation Windows, voir les manuels Microsoft Corporation [1995], et Microsoft Corporation [1994].
Ces progiciels de TCAO peuvent traiter des corpus de textes écrits dans l'une ou l'autre des 14 langues indo-européennes ou des 6 langues africaines énumérées dans le Tableau 2 suivant.
| TABLEAU 2 - Liste des langues traitées |
|---|
| 14 langues indo-européennes |
| français, allemand, anglais, danois, espagnol, féroïen, finnois, hollandais, irlandais, islandais, italien, norvégien, portugais, suédois. |
| 6 langues africaines |
| bambara, éwondo, fulfulde, lingala, sango, wolof. |
Dans une perspective d'un développement durable pour le
traitement informatique des langues africaines et des autres langues, ces
progiciels de TCAO manipulent et traitent internement les caractères via
le code UCS-2 de la norme internationale
ISO 10646.
Sous Linux, ces 14 langues indo-européennes sont supportées par les jeux de caractères de la norme ISO 8859-1 (ISO Latin-1), et sous Windows, par le jeu de caractères de la Page Code 850. Dans le prochain tableau, figure le jeu de caractères de la norme ISO 8859-1.
Pour les langues africaines, deux jeux de caractères africains ont été fabriqués. Ces deux jeux permettent d'écrire, de visualiser et de traiter des textes écrits à la fois en français et dans l'une l'autre des six langues africaines énumérées plus haut. Pour déterminer l'alphabet de ces langues africaines, nous avons utilisé comme référence technique en la matière le manuel Alphabets de Langues Africaines qui a été publié en 1993 par la Société Internationale de Linguistique (SIL).
Notre premier jeu de caractères africains
afrful-102-bpi_ocil supporte à la fois les alphabets du
bambara, de l'éwondo, du français et du fulfulde. Notre deuxième jeu de
caractères africains afrlin-104-bpi_ocil supporte à la fois
les alphabets du français, du lingala, du sango et du wolof. Ces deux
jeux de caractères africains sont illustrés respectivement dans les deux
prochaines figures.
Afin de pouvoir identifier plus clairement chacun des caractères africains de ce jeu de caractères afrful, consultez l'Annexe 2 ainsi que l'Annexe 3 pour les caractères du jeu de caractères afrlin.
Déterminer l'alphabet orthographique en usage pour des langues africaines est une spécialité en elle-même. La référence technique ou notre bible en la matière est le manuel Alphabets de Langues Africaines publié par la Société Internationale de Linguistique (voir SIL [1993]). En terme orthographique, les langues africaines se distinguent des langues indo-européennes selon les principales caractéristiques suivantes :
En français, les signes diacritiques sur une voyelle comme le e servent de marques d'ouverture ou de fermeture de voyelle. Dans les langues africaines, le système d'écriture orthographique est beaucoup plus complexe qu'en français. Dans plusieurs langues africaines comme le lingala, les ouvertures et les fermetures vocaliques sont représentées par des symboles orthographiques autonomes hérités de la phonétique tandis que les signes diacritiques sont des marques de ton. Plusieurs langues africaines possèdent quatre marques de ton différentes tandis que d'autres ont jusqu'à huit tons différents. Ces tons ne sont pas nécessairement tous marqués orthographiquement. De plus, certaines langues africaines utilisent des caractères ayant deux signes diacritiques au-dessus d'une même lettre, par exemple le tilde pour marquer la nasalisation vocalique plus un accent au-dessus de ce tilde pour marquer le ton.
Dans un système d'écriture, l'alphabet d'une langue est constitué d'un ensemble de graphèmes. Dans les langues africaines, un digraphe est un graphème de deux caractères tandis qu'un trigraphe est un graphème de trois caractères. En terme alphabétique, un digraphe ou un trigraphe est logiquement une et une seule lettre occupant une position spécifique dans l'alphabet.
Pour les langues supportées par les progiciels de TCAO, les deux figures présentées plus bas énumèrent respectivement l'alphabet orthographique de chacune de ces langues conformément au manuel SIL [1993]. Dans ces alphabets, nous avons ajouté à toutes les lettres minuscules provenant de SIL [1993] une lettre majuscule correspondante. Ces alphabets orthographiques sont affichés explicitement afin d'illustrer les caractères recherchés et d'indiquer l'ordre alphabétique des graphèmes.
Dans ces alphabets africains, notons que le symbole
point d'interrogation en exposant est utilisé comme
compromis typographique pour représenter le caractère
lettre latine coup de glotte en position
UCS2 0294.
Dans plusieurs applications de traitement computationnel de langues naturelles, le tri alphabétique demeure une composante essentielle et fort importante. En terminologie et en lexicographie computationnelle, cela est tout à fait évident comme nécessité. Cette fonctionnalité de tri l'est tout autant dans le domaine du traitement informatique de corpus pour la production d'index de mots, de listes de vocabulaire, de concordances de mots en contexte.
Lorsqu'il est question de tri informatisé, nous entendons
parler habituellement du tri alphabétique de langues indo-européennes.
Le tri alphabétique du français présente en lui-même un certain degré de
difficulté. Mais à cette complexité, s'ajoutent plusieurs autres
stratégies afin de pouvoir trier alphabétiquement les langues africaines.
Par exemple, les digraphes et les trigraphes africains nécessitent toute
une mécanique car ils doivent être traités logiquement comme un et un
seul symbole. Par exemple en lingala, il n'y a pas de lettre
g autonome mais plutôt un digraphe ng
ainsi qu'un caractère particulier pour la lettre eng. De
plus, un même digraphe n'occupe pas nécessairement la même position
alphabétique entre deux langues africaines d'une même famille
linguistique. Par exemple, le digraphe nd en
fulfulde-jelgoore est un type de d tandis qu'en
fulfulde-fuuta-jalon le nd est un type de
n. Les algorithmes de tri que nous avons programmés
fournissent toute la mécanique nécessaire pour trier alphabétiquement
autant les langues indo-européennes que les diverses langues
africaines.
Dans ces progiciels de TCAO, pour effectuer un tri
alphabétique, les routines de comparaison se subdivisent en deux types de
routines: les routines d'ordonnance et les
routines d'équivalence. La fonction d'une routine
d'ordonnance consiste à déterminer l'ordre d'un mot par rapport à un
autre. Est-ce que le mot Y doit apparaître avant ou après
le mot X? La fonction d'une routine d'équivalence consiste
à déterminer si un mot X doit être compté comme une
occurrence du mot Y ou comme un nouveau vocable. Par
exemple dans une production de listes de vocabulaire, est-ce que la
chaîne de caractères temps; (incluant le point-virgule) est
une variante orthographique du mot temps pris comme forme
générique?
Le progiciel Concorde fait appel aux routines d'ordonnance pour produire les concordances de mots en contexte. Par contre, Vocable fait appel aux routines d'ordonnance ainsi qu'aux routines d'équivalence pour produire des listes de vocabulaire avec la fréquence d'occurrences des vocables.
Pour le tri alphabétique, nous avons utilisé comme référence technique la norme internationale ISO 14651 dans laquelle les fondements et les principes du tri alphabétique sont très bien expliqués. Le rédacteur de cette norme est M. Alain Labonté du Service de la prospective et de la francisation du gouvernement du Québec. Pour des informations techniques complémentaires sur le tri informatique, voir Labonté [1988] et Labonté [1989].
En regard des principes et des méthodes recommandées par la norme ISO 14651, nous avons utilisé le concept de niveaux de tri et nous l'avons étendu en y ajoutant quelques niveaux de tri en fonction de nos besoins pour le tri alphabétique du français et des langues africaines. Notre routine de comparaison qui est utilisée par les progiciels contient un tri en huit niveaux. Ces huit niveaux sont les suivants :
Nos niveaux 1, 2 et 3 correspondent exactement aux mêmes niveaux de la norme ISO 14651 tandis que nos niveaux 7 et 8 correspondent au niveau 4 de la norme ISO 14651. Entre les niveaux 3 et 4 de l'ISO 14651, nous avons ajouté nos trois niveaux numériques suivants: le niveau 4, le niveau 5 et le niveau 6.
Pour les trois premiers niveaux, nous avons fait attention à la combinatoire de lettres multiples (e.g. les digraphes et les trigraphes africains) ayant soit la pondération d'une lettre entière occupant sa propre position dans l'ordre, ou encore, partageant l'ordre d'une autre lettre, avec un incidence sur le niveau 2. De plus, le niveau 2 pour les diacritiques est traité de droite à gauche tel que recommandé par la norme ISO 14651.
Notre traitement computationnel du tri est organisé en deux passes, où le terme passe désigne un processus qui ne regarde honnêtement chacun des caractères qu'une seule fois (autrement dit, qui ne met aucun caractère de côté pour y revenir plus tard). Une première passe compile un automate reconnaisseur, qui dépend de la langue traitée, pour traiter efficacement les caractères multiples ayant la pondération d'une lettre entière, et produit en sortie une chaîne de longueur égale ou plus petite que l'originale, où chaque pseudo-caractère porte toute l'information requise de poids et de classification. Une seconde passe réalise ensuite les huit niveaux simultanément sur les chaînes à comparer, sans aucune utilisation de mémoire auxiliaire supplémentaire. Quoique le niveau 2 soit théoriquement défini à contre-sens, il est bien sûr traité dans le sens direct, avec le résultat théoriquement escompté.
De plus, notre routine de comparaison accepte un argument permettant de commander une comparaison inverse (i.e. allant du dernier caractère vers le premier caractère d'une chaîne). Dans ce cas, la seconde passe demeure unique, y compris pour les valeurs de suite de chiffres qui doivent toujours être interprétées dans le sens direct. Enfin, nous nous sommes assuré que cette routine de comparaison puisse traiter du code UCS-2 aussi bien que des codes à huit bits, spécialement au niveau de la compilation de l'automate reconnaisseur dans la première passe, où des techniques spéciales doivent être utilisées pour préserver raisonnablement l'espace-mémoire.
Comme caractéristique commune à ces cinq progiciels de
TCAO, les fichiers textuels d'entrée peuvent être soit en format
plein texte, soit en format HTML ou
soit en tout autre format SGML (voir
Goldfarb [1990],
ISO 8879:1988,
ISO 8879:1986). Notons que
HTML n'est pas un format proprement dit mais plutôt un
langage de balisage utilisé pour formaliser les pages Web de tout site
Internet. Pour plus de détails sur HTML, voir la norme
RFC 1866 - Berners-Lee ainsi que
le site Web http://www.w3.org pour
obtenir les versions plus récentes de cette norme.
Pour écrire un fichier textuel selon l'une ou l'autre des langues supportées, il faut suivre les conventions de clavier proposées. Selon le charset utilisé, un fichier textuel est qualifié soit de fichier encodé ou soit de fichier translittéré (pour plus de détails, voir Bourbeau [1999a]). Le progiciel Recode permet de recoder un fichier textuel en version translittérée vers un fichier en version encodée selon le charset approprié. Un recodage automatique peut aussi être effectué dans l'autre direction, de la version encodée vers la version translittérée (pour plus de détails, voir Pinard [1999]).
Un fichier textuel en format plein texte désigne un fichier électronique qui respecte l'ensemble des critères suivants :
Word ou WordPerfect;
0000 au code 007E de
l'UCS-2);
AFRL1-101-BPI_OCIL,
AFRFUL-103-BPI_OCIL ou AFRLIN-105-BPI_OCIL;
ISO-8859-1, du charset AFRFUL-102-BPI_OCIL ou
du charset AFRLIN-104-BPI_OCIL.
Pour illustrer cette notion de fichier en format plein texte, nous présentons plus bas trois exemples. Le premier exemple est un texte français en ISO Latin-1 et en version encodée. Ce texte est une traduction en français du deuxième exemple qui est un texte fulfulde formulé en version translittérée. Enfin, le troisième exemple est le même texte fulfulde écrit cette fois-ci en version encodée.
LA JEUNE FILLE LAIDE Il était une fois une jeune fille laide. Un jour, sa mère mourut. Mais avant sa mort, cette dernière avait dit à sa coépouse: «Je suis malade, et je sais que cette maladie ne me quittera plus; tôt ou tard elle me sera fatale.» L'autre femme lui répondit: «Mais il n'y a pas que les malades qui meurent, les gens en bonne santé meurent eux aussi, il n'y a aucun doute là-dessus! Celui dont les jours sont arrivés à leur terme mourra, quoi qu'il fasse». Au bout de quelque temps, la mère de la jeune fille mourut. Or, il y avait aussi un jeune homme, du nom de Boubou Yéebé, qui était parti en voyage depuis longtemps --- plus de dix ans! Il était fils unique et c'était le plus beau jeune homme en ce pays. Personne ne savait s'il était mort ou vivant. Pendant son absence, ses parents avaient eu une fille qu'ils nommèrent Pennda Yéebé et qui était aussi la plus belle des jeunes filles en ce pays.
KO CURBAAJO KAANARO On curbaajo kaanaro. Woni seed[a, neene makko maayi. Ado o mayde, o inni nawlu makko: <<Awa mi nawni, mid[o anndi non nde nawnaare accataa lam; ko neeb[i wa ko kayre wonata sabu am>>. Oya inni: <<E! Wonaa nawnud[o tun maayata, mo nawnaa kadi no maaya kisa! Mo bald[e mu?^um lanni wo?^o, o maayay, lekki alaa>>. Woni d[on haa b[ooyi. Oya mard[o jiwo kaanaro on maayi. Suka no ton no wi?^ee Buubu Yeeb[e, on suka e nder sukaab[e aduna on alaa burd[o mo labeede. On suka yahi safaari, o woni ton haa neeb[i --- wa duub[i sappo o ko fawi! --- Yumma makko maraa b[id[d[o go?^o si wonaa kanko. Jooni non, b[e anndaa si Buubu Yeeb[e no wuuri maa si o mayii. Woni d[on e nder duub[i b[e heb[itoyi jiwo, on b[e inni mo Pennda Yeeb[e on kadi e nder curbaab[e aduna on alla mo?^o fotata labeede.
Dans ce dernier exemple, notons que ce texte fulfulde en
version encodée est en fait une image en format graphique
GIF. Cette image a été fabriquée à partir d'une capture
d'écran contenant une visualisation de ce texte fulfulde en format
PostScript. Pour plus de détails sur le langage PostScript,
voir
Adobe systems incorporated
[1987a] et [1987b]).
En plus du format plein texte, ces progiciels de TCAO peuvent traiter des fichiers en format sgmlisé, ce qui désigne un fichier formalisé soit en langage HTML (HyperText Markup Language) ou soit en langage SGML pur (Standard Generalized Markup Language). La prochaine figure permet de montrer un exemple d'un texte espagnol en format HTML source tout en illustrant en même temps certaines balises HTML qui accompagnent ce texte.
Pour que les prociciels de TCAO puissent s'exécuter, il est nécessaire que les variables d'environnement appropriées soient initialisées au préalable. Les noms de ces quatre variables d'environnement sont identifiés de la façon suivantes :
Cette variable LANGUAGE sert à déterminer
la langue du poste de travail de l'environnement usager pour
l'affichage des menus d'aide ou des messsages d'erreur produits par un
programme donné. Pour cette variable, ce sont les codes à deux
lettres de la norme ISO 639
qui sont utilisés en paramètre comme valeur possible pour identifier
une langue donnée.
Cette variable DEFAULT_CHARSET sert à
déclarer avec quel charset (ou jeu de caractères) le fichier textuel
d'entrée a-t-il été encodé. Pour cette variable, c'est l'un des 175
noms de charset (ou de leurs noms alias) qui peut être utilisé en
paramètre comme valeur possible. Pour obtenir la liste de ces
charsets, voir
Pinard [1999].
Cette variable COLLATE_LANGUAGE sert à
déclarer dans quelle langue le texte du fichier d'entrée est-il écrit.
Cette variable est obligatoire afin de pouvoir exécuter un tri
alphabétique localisé à une langue donnée. Pour cette variable, ce
sont les codes à trois lettres de la convention POV
qui sont utilisés en paramètre comme valeur possible pour identifier
une langue donnée. Cette convention POV, proposée par la
Société Internationale de linguistique, a l'avantage
d'offrir un inventaire exhaustif des langues parlées dans le monde
selon une taxonomie des langues basée sur des critères
ethnolinguistiques et socio-linguistiques plutôt que sur des critères
strictement géographiques. Pour plus de détails, visitez le site Web
http://www.sil.org/ethnologue/#contents.
Cette variable LANGUE sert à déclarer quelle fonte
matricielle BPI faut-il charger en mémoire afin de pouvoir visualiser
à l'écran le jeu de caractères d'une langue donnée.
Dans la figure suivante, les chiffres +1 à +4 permettent d'indentifier sous chaque progiciel de TCAO les variables d'environnement qu'il faut initialiser au préalable.
Le Tableau 3suivant contient la liste de toutes les valeurs possibles pour chacune des quatre variables d'environnement.
| TABLEAU 3 - Variables d'environnement et leurs valeurs | |||
|---|---|---|---|
| Variable d'environnement
LANGUAGE Environnement de travail de l'usager (Codes à 2-lettres ISO-639) |
|||
| Valeur | Langue | Valeur | Langue |
| da | danois | de | allemand |
| en | anglais | es | espagnol |
| fr | français | nl | néerlandais |
| pl | polonais | pt | portugais |
| sl | slovène | sv | suédois |
| Variable d'environnement
DEFAULT_CHARSET Jeu de caractères du fichier d'entrée |
|||
| Valeur | Charset | ||
| La valeur admissible est un nom de charset parmi les 175 charsets supportés par Recode (voir Pinard [1999]). | |||
| Variable d'environnement
COLLATE_LANGUAGE Langue du fichier d'entrée (Codes à 3-lettres POV) |
|||
| Valeur | Langue | Valeur | Langue |
| bra | bambara | ewo | éwondo |
| frn | français | fub | fulfulde-adamawa |
| fuc | fulfulde-pulaar | fuf | fulfulde-fuuta-jalon |
| ful | fulfulde-maasina | fum | fulfulde-jelgoore |
| fuq | fulfulde-sokoto | lin | lingala |
| saj | sango | snj | sango-riverain |
| wol | wolof | ||
| Variable d'environnement
LANGUE Fonte à charger pour la visualisation à l'écran |
|||
| Valeur | Langues | ||
| ful | bambara, fulfulde, éwondo, français. | ||
| lin | lingala, sango, wolof, français. | ||
| l1 | français, allemand, anglais, danois, espagnol, féroïen, finnois, hollandais, irlandais, islandais, italien, norvégien, portugais, suédois. | ||
Sous Linux, l'initialisation d'une variable d'environnement se fait à l'aide de la commande export. Par exemple, voir plus bas les trois commandes en (1). Sous Windows, l'initialisation se fait avec la commande set. Par exemple, voir plus bas les trois commandes en (2) et en (3). De telles commandes d'initialisation doivent être exécutées au niveau de la ligne d'invite du système d'exploitation.
(1) export LANGUAGE=fr
export DEFAULT_CHARSET=l1
export COLLATE_LANGUAGE=frn
(2) set LANGUAGE=fr
set DEFAULT_CHARSET=l1
set COLLATE_LANGUAGE=frn
(3) set LANGUAGE=fr
set DEFAULT_CHARSET=850
set COLLATE_LANGUAGE=frn
Dans les commandes en (1) et (2), la valeur de la variable d'environnement DEFAULT_CHARSET est le code l1 tandis que la valeur de la variable d'environnement COLLATE_LANGUAGE est le code frn. Par contre en (3), la valeur de DEFAULT_CHARSET est le code 850 en présupposant dans ce cas-ci que le fichier d'entrée est encodé avec le charset CP850. Il faut bien sûr associer la bonne langue avec le bon charset, tout comme il faut associer le bon charset en fonction du fichier d'entrée!
Comme autre caractéristique commune à ces progiciels de TCAO, notons que Ventile, Vocable, Concorde et Alibi supportent la notion de régions textuelles à l'aide de raffineurs internes et de raffineurs externes. L'utilisateur doit formuler dans le paramètre SCAN-SPEC d'une commande les raffineurs qu'il désire. Ces raffineurs permettent d'activer des modules internes effectuant automatiquement un balayage textuel sélectif dans les fichiers d'entrée à traiter. Le Tableau 4 suivant identifie chaque raffineur possible pouvant faire partie d'une liste hiérarchique de raffineurs.
| TABLEAU 4 - Paramètre SCAN-SPEC Identification des démarreurs / terminateurs admissibles |
|||
|---|---|---|---|
| Raffineurs internes | Raffineurs externes (balises HTML ou SGML) | ||
| P | Paragraphes | h1 | Titres de niveau 1 |
| S | Phrases | h2 | Titres de niveau 2 |
| V | Vers (i.e. ligne) | p | Paragraphes |
| W | Mots | td | Items d'un tableau |
| C | Caractères | ou toute autre balise SGML ou HTML valide selon la grammaire DTD associée au fichier d'entrée. | |
| Octets | |||
| Raffineurs internes complémentaires | |||
| T | Fournir une balise démarreur/terminateur avant et après le textuel. | ||
| F | Reconnaître l'espace français après une ponctuation forte. | ||
Dans le contexte de ces progiciels de TCAO, nous
utilisons une terminologie particulière qu'il est opportun d'expliquer.
Dans le langage SGML et HTML, les termes
start tag et end tag sont utilisés pour désigner les
balises d'un quelconque élément de ce langage de balisage. Nous pouvons
traduire ces deux termes techniques par balise d'ouverture et par
balise de fermeture pour un élément donné. Pour réduire ces deux
termes à un seul mot, nous utilisons le terme démarreur pour
désigner une balise d'ouverture et le terme terminateur pour
désigner une balise de fermeture. Par exemple, la balise
<p> est un démarreur tandis que la balise
</p> est un terminateur de l'élément textuel
paragraphe.
Le terme raffineur interne désigne un opérateur qui active un module dont la fonction consiste à découvrir et à fixer au vol le démarreur et le terminateur d'une région textuelle faisant partie de la structure hiérarchique d'un texte. Par exemple, le raffineur interne P a pour fonction de demander l'exécution d'un module de reconnaissance servant à déterminer (ou à CHERCHER) les bornes d'un paragraphe et à baliser les paragraphes à l'aide d'un démarreur et d'un terminateur. Dans le paramètre scan-spec d'une ligne de commande, tout raffineur interne est identifié par une lettre en majuscule.
Le terme de raffineur externe désigne un
module dont la fonction consiste à récupérer et à utiliser le démarreur
et le terminateur provenant d'un fichier dont la structure textuelle est
déjà marquée par des balises. Par exemple, un fichier d'entrée en format
HTML est un fichier «smglisé» dont la structure textuelle
est déjà balisée. Dans le paramètre scan-spec d'une
ligne de commande, tout raffineur externe est identifié par une lettre ou
par des lettres en minuscule.
Selon le contexte, le terme raffineur désigne soit un raffineur interne, soit un raffineur externe, ou soit les deux à la fois. La syntaxe du paramètre scan-spec est illustrée à l'aide d'exemples dans la prochaine section.
| Les raffineurs internes |
|---|
Avant de discuter du concept de raffineur interne, expliquons d'abord ce qu'on entend par les termes «hiérarchie textuelle» et «région textuelle». Il est important de comprendre ces deux termes et de les maîtriser car ces notions s'articulent avec le concept de raffineur.
Un fichier textuel en format plein texte possède une hiérarchie textuelle et des régions textuelles mais ces éléments textuels ne sont pas balisés explicitement. Physiquement parlant, un fichier en format plein texte est constitué d'un ensemble de lignes. Ces lignes sont soit des lignes blanches ou soit des lignes contenant des caractères. Ces caractères sont soit des caractères imprimables ou soit des caractères de contrôle. Pour un humain qui lit ce genre de fichier, ce-dernier peut déduire spontanément qu'une chaîne de caractères entre deux blancs est un mot (i.e. une région textuelle de type mot). Tout comme il peut déduire qu'un bloc de lignes de texte qui débute et se termine par une ligne blanche est un paragraphe (i.e. une région textuelle de type paragraphe). Pour une machine qui lit ce genre de fichier plein texte, cela n'est pas aussi évident car pour elle tous les caractères sont au même niveau.
Une région textuelle se définit comme étant un élément textuel ayant une position physique et une longueur. Par exemple, un titre, un paragraphe, une phrase, un mot tout comme un simple caractère sont tous considérés comme étant une région textuelle spécifique. Pour un texte donné, chacune de ces régions sont imbriquées les unes dans les autres pour former une structure textuelle.
Le terme niveau hiérarchique désigne la place qu'occupe une région textuelle par rapport à une autre et l'ensemble de ces niveaux hiérarchiques constituent la hiérarchie textuelle pour un texte donné. Par exemple, en terme de niveaux hiérarchiques décroissants, un paragraphe (P) contient des phrases, une phrase (S) contient des mots et un mot (W) contient des caractères (C). Par contre, un mot ne contient pas de phrase, tout comme une phrase ne contient pas de paragraphe.
Maintenant à quoi sert un raffineur interne du point de vue de l'utilisateur? Un raffineur interne permet à l'utilisateur de demander à un progiciel TCAO donné de reconnaître d'abord certaines régions textuelles avant d'exécuter les fonctions de dépouillement et de traitement du fichier d'entrée. À l'aide du paramètre scan-spec, c'est l'utilisateur qui détermine les régions textuelles qui lui sont pertinentes en regard du traitement computationnel désiré. Les raffineurs permettent ainsi d'effectuer un traitement computationnel plus «raffiné» sur un texte donné.
Par exemple dans la commande en (4), la valeur du paramètre scan-spec est la liste P,S et cette liste contient d'abord le raffineur interne P suivi du raffineur interne S. Cette commande en (4) demande d'aligner le fichier lingala xlin.lin avec sa traduction française contenue dans le fichier xlinfr.l1. Pour effectuer cet alignement bi-textuel de fichiers, le symbole P indique d'appliquer le raffineur interne P afin d'aligner dans une première passe tous les paragraphes tandis que le symbole S indique d'appliquer le raffineur interne S afin d'aligner dans une deuxième passe toutes les phrases à l'intérieur de chaque paragraphe.
(4) alibi P,S xlin.lin xlinfr.l1
Avec le raffineur interne P, le progiciel Alibi produira internement un démarreur et un terminateur de paragraphe pour tout bloc de texte délimité par une ou plusieurs lignes vides (ou lignes blanches). Avec le raffineur interne S, Alibi produira internement un démarreur et un terminateur de phrase si le texte contient une ponctuation forte .?! suivie possiblement de ])"» et suivie de 2 espaces blancs.
En règle générale, les raffineurs internes s'utilisent lorsque le fichier d'entrée est un fichier textuel, en format plein texte, qui ne contient pas de démarreurs et de terminateurs balisant les régions textuelles. La valeur du paramètre scan-spec peut être soit un seul raffineur ou soit une liste de raffineurs. Dans une liste de raffineurs, la syntaxe d'écriture demande d'utiliser une virgule pour séparer chaque niveau de raffineurs. Lorsqu'il y a plusieurs raffineurs à un même niveau hiérarchique, chaque raffineur doit être séparé par le signe +.
Le raffineur interne V sert à indiquer que le genre littéraire des textes à traiter n'est pas de la prose. Il peut s'agir de poésie sous forme de vers et de strophes ou d'une liste de syntagmes sous forme de lignes. Ce raffineur V désigne un vers d'un poème, une ligne d'une chantefable ou une simple ligne. Dans un tel cas, ce sont plutôt des lignes qu'il faut préserver et traiter comme région textuelle. Avec le raffineur V, un progiciel comme Alibi produit internement un démarreur et un terminateur de vers si une ligne de caractères orthographiques se termine par un ou plusieurs caractères fin de ligne.
Notons que l'ordre des raffineurs est significatif. Les raffineurs doivent être ordonnés logiquement par ordre de niveau textuel décroissant. Par exemple, l'ordre décroissant des niveaux P,S,W pour paragraphe / phrase / mot est logiquement cohérent. Toutefois, l'ordre décroissant P,V pour paragraphe / ligne est discutable dans certains contextes. En effet, une seule et même ligne (comme un titre par exemple) peut correspondre à un paragraphe mais, dans la plupart des cas, un paragraphe ne se limite pas nécessairement à une seule ligne. Par contre, l'ordre décroissant V,S pour ligne / phrase est plus que discutable car une phrase se limite rarement à une seule et même ligne. Pour Alibi, l'ordre V,S n'est pas hiérarchiquement logique et un tel usage est litigieux car les résultats seront plutôt incohérents.
Comme autres raffineurs internes, il y a les raffineurs T et F qu'il ne faut pas confondre. Puisque le raffineur interne T ne s'utilise qu'avec des raffineurs externes, ce-dernier sera alors présenté dans la prochaine section portant sur les raffineurs externes.
Le raffineur interne F doit être expliqué en regard du raffineur S qui est utilisé pour délimiter les segments (ou les phrases). Le raffineur interne S demande de reconnaître les fins de phrases comme région textuelle. Comme règle générale, ce raffineur considère qu'une marque de fin de phrase est une ponctuation forte suivie de deux espaces blancs. Par conséquent, un caractère point suivi d'un seul caractère espace n'est pas analysé comme une marque de fin de phrase. Le raffineur F permet de forcer la main au module de reconnaissance des phrases en lui dictant de considérer en plus qu'un point suivi d'un seul espace est une marque de fin de phrase.
Dans la commande en (5), le raffineur interne S et le raffineur F sont utilisés au même niveau hiérarchique. Alors dans les deux textes d'entrée toto-1.txt et toto-2.txt, tout point suivi d'un seul espace sera interprété comme une marque de fin de phrase et tout point suivi de deux espaces sera aussi interprété comme une marque de fin de phrase.
(5) alibi P,S+F toto-1.txt toto-2.txt
Un utilisateur pourrait éventuellement décider de normaliser son texte d'entrée en s'assurant qu'il y a toujours deux blancs après toute ponctuation forte et ne pas utiliser le raffineur F. Dans la plupart des applications, il n'est pas de mise de modifier ou d'altérer un texte original. Dans un tel cas, le raffineur F peut être utilisé. Ce raffineur F a toutefois des effets de bord. Par exemple, un point terminant une abréviation sera interprété comme une marque de fin de phrase. Avec le raffineur F, chaque phrase dans les exemples en (6) sera segmentée en deux phrases telles que délimitées en (7).
(6) «Je vous dis que M. Bill n'a pas fini de s'enrichir.»
L'édifice de l'O.N.U. est localisé dans un autre quartier.
L'article 2. et l'article 2.1 sont @`a l'ordre du jour.
L'hon. Harvie Andre (ministre de la Consommation)
(7) «Je vous dis que M.// Bill n'a pas fini de s'enrichir.»
L'édifice de l'O.N.U.// est localisé dans un autre quartier.
L'article 2.// et l'article 2.1 sont @`a l'ordre du jour.
L'hon.// Harvie Andre (ministre de la Consommation)
| Les raffineurs externes |
|---|
Dans le contexte de ces progiciels de TCAO, un raffineur externe est toute balise d'une grammaire DTD (i.e. la grammaire de déclaration de type de document selon la terminologie SGML, voir la norme internationale ISO 8879). Par exemple, toute balise de la grammaire DTD de la norme HTML 3.2 ou HTML 4.0 peut être considérée comme un raffineur externe.
Comme autre exemple, toute balise dans un fichier SGML
dont la syntaxe répond formellement à la grammaire DTD
qui lui est sous-jacente peut être utilisée comme raffineur externe.
Pour une meilleure performance, il est entendu que les fichiers d'entrée
en langage SGML sont formellement conformes à leur
grammaire DTD. Pour valider automatiquement et formellement un fichier
SGML en regard de sa propre grammaire DTD, il est recommandé de faire
usage d'un valideur syntaxique tel que l'utilitaire nsgmls
de Clark [1998].
Avant d'expliquer un usage de raffineurs externes, il est opportun d'introduire le raffineur interne T à l'aide de l'exemple en (8) tout en décomposant le paramètre scan-spec dont la valeur est la liste des raffineurs html,tr,th+T,td,p+P,S.
(8) alibi html,tr,th+T,td,p+P,S toto-1.html toto-2.html
Le raffineur interne T s'utilise toujours avec un raffineur externe. Le nom du raffineur T provient de la première lettre du mot anglais "Tag". Le raffineur T permet de dire au module de reconnaissance de régions textuelles qu'il doit, pour une balise donnée, ajouter lui-même au vol soit un démarreur (i.e. balise d'ouverture) ou soit un terminateur (i.e. balise de fermeture) lorsqu'une de ces balises a été omise dans les fichiers d'entrée. Bref, le raffineur T demande de balancer un démarreur avec un terminateur lorsque l'un des deux est absent du fichier d'entrée.
Dans la commande en (8), la formulation th+T désigne d'abord le raffineur externe th qui a pour effet de demander d'aligner le niveau textuel d'un élément tableau marqué conformément par une balise <th> et elle désigne en plus le raffineur interne T qui a pour effet de demander d'ajouter au vol un terminateur th aux endroits où la balise de fermeture </th> a été omise dans l'un ou l'autre des deux fichiers d'entrée (toto-1.html et toto-2.html).
Dans la formulation p+P en (8), le symbole p désigne d'abord le raffineur externe p qui a pour effet de demander d'aligner le niveau textuel paragraphe marqué conformément par une balise <p> de HTML. Le symbole P désigne le raffineur interne P qui a pour effet d'activer le module de reconnaissance de paragraphes pour récupérer les situations textuelles où les balises <p> et </p> seraient toutes deux absentes des fichiers d'entrée. Si la formulation en (8) avait été p+P+T, cela aurait signifé en plus d'ajouter au vol un démarreur / terminateur p aux endroits où l'une ou l'autre des balises <p></p> aurait été omise dans les fichiers d'entrée.
En terme d'alignement proprement dit, la commande alibi en (8) demande d'aligner les deux textes d'entrée en procédant par niveaux hiérarchiques décroissants, conformément à la hiérarchie textuelle énoncée par la liste de raffineurs contenant les six régions textuelles suivantes :
Cette commande en (8) peut être reformulée comme en (9) si l'utilisateur désire déclarer les raffineurs externes tr, th et td comme étant du même niveau hiérarchique.
(9) alibi html,tr+th+T+td,p+P,S toto-1.html toto-2.html
La commande en (9) demande d'aligner les deux textes d'entrée en procédant par niveaux hiérarchiques décroissants selon la hiérarchique textuelle ne contenant cette fois-ci que les quatres nivaux suivants :
Pour chaque progiciel de TCAO, le Tableau 5 suivant fournit quelques exemples de commande d'appel afin d'illustrer la syntaxe d'écriture de commandes TCAO. Pour connaître la signification des diverses options possibles de ces cinq progiciels de TCAO, consultez l'Annexe 1 qui contient respectivement le menu d'aide de chaque progiciel. Pour comprendre les valeurs possibles du paramètre de balayage textuel scan-spec, consultez la sous-section Identification des raffineurs.
| TABLEAU 5 - Exemples de commandes d'appel TCAO | |||
|---|---|---|---|
| Commande | Options | SCAN-SPEC | Fichier(s) d'entrée |
| ventile | -w65 -h10 | W | xbamfr.l1 xengfr.l1 xfulfr.l1 xlinfr.l1 xwolfr.l1 |
| ventile | -w60 -h10 | P,S,W | xeng.l1 |
| ventile | -w60 -h0 | body | resums.html |
| vocable | -w70 -f | W | xbam.bra |
| vocable | -w70 -p10 -i | W | xsaj.lin |
| vocable | -w70 -p10 | html,tr+th+td,P,S+F+a+i,W | resums.html |
| concorde | -w70 -r10 | S,W | xlin.lin |
| concorde | -w70 -i | S,W | xlinfr.l1 |
| concorde | -r5 | W,C | xwol.lin |
| concorde | -r5 -w70 -a wowlu | S,W | xful.bra |
| concorde | -w70 -r5 | th+td+T,S+F,W | resuma.html |
| alibi | P,S | xwol.lin xwolfr.l1 | |
| alibi | -k -w70 | P,S | xwol.lin xwolfr.l1 |
| alibi | -k -w70 -a kòròkè -b frère | P,S | xbam.bra xbamfr.l1 |
| alibi | -k -w70 | html,tr,th+T,td,p+P,S | resumf.html resums.html |
Pour ces progiciels de TCAO, la documentation technique qui est disponible en français désigne les trois manuels suivants: Bourbeau [1999a]; Bourbeau [1999b]; et Pinard [1999]. Parmi les fichiers de distribution de ces progiciels de TCAO, il est important de noter qu'il n'y a pas de produits logiciels permettant d'imprimer des fontes africaines. Avec ces prociciels de TCAO, les fichiers textuels africains ne peuvent être imprimés pour l'instant qu'en version translittérée.
Toutefois, les deux manuels de documentation technique (voir Bourbeau [1999a] et [1999b]) contiennent plusieurs exemples et divers extraits de textes écrits en bambara, en fulfulde, en lingala, en sango et en wolof. Une telle documentation démontre clairement qu'il est donc possible d'utiliser des fontes africaines pour imprimer des textes en langues africaines.
Afin de pouvoir imprimer et publier ces manuels de documentation TCAO, nous avons exploité le logiciel d'éditique Texinfo (voir Chassell & Stallman [1995]) ainsi que les fontes African Computer Modern Font, ou fontes fc (voir Knappen [1998a] et Knappen [1998b]). Cette fonte fc de Knappen, formalisée en langage METAFONT (voir Knuth [1992]), permet d'imprimer des documents en langues africaines sur des imprimantes supportant le protocole PostScript (voir Adobe Systems Incorporated [1987a] et [1987 b]). Pour un aperçu du jeu de caractères des fontes EC et FC, consultez les trois tableaux en Annexe 4.
Afin de pouvoir imprimer la documentation technique relative à nos travaux sur les langues africaines, ce n'est pas la version originale de Texinfo qui a été utilisée mais une version particulière que nous avons développée. Pour produire cette version particulière de Texinfo (ou ce Texinfo africain, nous avons d'abord programmé diverses macros en langage TeX (voir Knuth [1993]). Ensuite, ces macros ont été intégrées dans le code source de Texinfo tout en ajoutant à ce code des conventions d'encodage africain et en y intégrant le support des fontes fc.
Avant de distribuer un tel Texinfo africain à des utilisateurs de l'Afrique francophone, il faudrait traduire en français la documentation technique de Texinfo et mettre à jour toute cette documentation en y ajoutant les explications nécessaires pour la configuration et l'utilisation de cette version africaine. Malheureusement, la fabrication d'une distribution d'un tel Texinfo africain pour une éditique (ou une PAO - publication assistée par ordinateur) africaine n'a pas pu être effectuée pour l'instant. Un tel objectif pourrait éventuellement faire l'objet d'un projet ultérieur.
La visualisation de fontes africaines directement à l'écran nécessite l'existence et la présence de divers formats graphiques de fontes lorsqu'on désire supporter ces fontes africaines autant sur la plateforme Unix/Linux que sur la plateforme Windows95. Pour chacune de ces deux plateformes, une fonte matricielle (ou «bitmap») est nécessaire dans le mode console sous Linux ou dans le mode shell MS-DOS sous Windows95. De plus, un fonte vectorielle est nécessaire dans le mode fenestration: c'est-à-dire dans X Windows sous Unix et dans une fenêtre Windows sous Windows95.
Dans l'état actuel de nos travaux, la fabrication de tous ces types de formats graphiques n'est pas complétée pour les diverses fontes africaines. Le Tableau 6 résume l'état actuel des travaux en ce qui a trait aux fontes par rapport aux divers périphériques: les espaces blancs entre crochets indiquent que ces fontes ne sont pas encore disponibles. Toutefois, des travaux de développement sont présentement en cours afin de compléter les fontes africaines afrful et afrlin pour la plateforme Windows95 et ce autant pour l'écran vidéo que pour les pilotes de clavier.
| TABLEAU 6 - Fontes africaines | ||||
|---|---|---|---|---|
| Périphériques | Linux | Windows | ||
| Écran vidéo | Console | Shell MS-DOS | ||
| Version translittérée | afrful | fichier.t-bra | afrful | fichier.t-bra |
| afrlin | fichier.t-lin | afrlin | fichier.t-lin | |
| latin-1 | fichier.t-fra | latin-1 | fichier.t-fra | |
| Version encodée | afrful | fichier.bra | afrful |
|
| afrlin | fichier.lin | afrlin |
|
|
| latin-1 | fichier.fra | latin-1 | [ IBM437 ] | |
| X-Windows | Windows | |||
| Version encodée | afrful | [ ] | afrful |
|
| afrlin | [ ] | afrlin |
|
|
| latin-1 | fontes *.bdf | latin-1 | fontes *.ttf Page Code 819 |
|
| Clavier | ||||
| Version encodée | afrful | [ ] | afrful |
|
| afrlin | [ ] | afrlin |
|
|
| latin-1 | Pilote de clavier | latin-1 | Pilote de clavier | |
| Imprimantes | PostScript | HP-PCL | ||
| Version encodée | afrful | [ Fontes FC ] | afrful |
|
| afrlin | [ Fontes FC ] | afrlin |
|
|
| latin-1 | Fontes EC | latin-1 | Fontes TTF | |
| WEB - HTML | Netscape | Internet Explorer | ||
| Version encodée | afrful | [ ] | afrful | [ ] |
| afrlin | [ ] | afrlin | [ ] | |
| latin-1 | Entités HTML | latin-1 | Entités HTML | |
Dans l'état actuel des choses sous Windows, les utilisateurs des progiciels de TCAO ne peuvent visualiser les textes africains qu'en version translittérée. Si un utilisateur tente de visualiser un texte africain en version encodée sous Windows95 cela ne bloquera pas pour autant le système d'exploitation. Sauf que les caractères africains prévus dans une position donnée seront simplement remplacés à l'affichage par le caractère en position correspondante provenant du jeu de caractère alors en vigueur (e.g. les positions du jeu de caractères CP850 ou du jeu IBM437).
Ces progiciels de TCAO sont encore à leur première version. Les futurs développements de ces progiciels seront orientés en fonction des réactions et des besoins des utilisateurs. Même si certains travaux de développement sont déjà en cours, n'hésitez pas à utiliser le courrier électronique pour nous faire part de vos réactions et de vos suggestions!
«Free recode» transforme les jeux de caractères et les surfaces de fichiers
Usage: recode [OPTION]... [ [CHARSET] | DEMANDE [FICHIER]... ]
Un paramètre obligatoire pour une option de forme longue l'est aussi pour une
option de forme courte. La même règle s'applique à un paramètre indiqué comme
étant optionnel.
Listes:
-l, {-}{-}list[=FORMAT] afficher un charset donné, ou fournir toute la liste
-k, {-}{-}known=PAIRES choisir les charsets selon quelques PAIRES connues
-h, {-}{-}header[=[LN/]NOM] tabuler NOM sur stdout, utilisant LN, puis terminer
-F, {-}{-}freeze-tables produire un module C contenant toutes les tables
-T, {-}{-}find-subsets lister tout charset qui est sous-ensemble d'un autre
-C, {-}{-}copyright afficher les conditions de copie, puis terminer
{-}{-}help fournir ce message d'aide, puis terminer
{-}{-}version identifier la programme, puis terminer
Modes d'opération:
-v, {-}{-}verbose afficher les étapes prévues, suivre la progression
-q, {-}{-}quiet, {-}{-}silent taire les messages sur les recodages irréversibles
-f, {-}{-}force effectuer même les recodages irréversibles
-t, {-}{-}touch «touch»er les fichiers après leur remplacement
-i, {-}{-}sequence=files fabriquer des fichiers pour ordonnancer les passes
{-}{-}sequence=memory utiliser des tampons pour ordonnancer les passes
-p, {-}{-}sequence=pipe utiliser «pipe» pour ordonnancer les passes
Ajustements fins:
-s, {-}{-}strict recoder strictement, perte possible de caractères
-d, {-}{-}diacritics se restreindre aux diacritiques pour HTML/LaTeX
-S, {-}{-}source[=LN] ne recoder que les chaînes et les commentaires LN
-c, {-}{-}colons utiliser «:» plutôt que «"» pour les trémas
-g, {-}{-}graphics convertir au mieux possible les «rulers» IBMPC
-x, {-}{-}ignore=CHARSET ignorer CHARSET durant le choix des étapes
L'option «-l» sans FORMAT ni CHARSET donne la liste des charsets et
des surfaces disponibles. FORMAT vaut «decimal», «octal»,
«hexadecimal» ou «full», ou encore un caractère dans
«dohf». Le charset «Latin-1» est la valeur par défaut.
LN est le nom d'un langage: `c', `perl' ou `po'; `c' par défaut.
DEMANDE est SOUS-DEMANDE[,SOUS-DEMANDE]...; SOUS-DEMANDE est
CODAGE[..CODAGE]... CODAGE est [CHARSET][/[SURFACE]]...;
DEMANDE ressemble souvent à AVANT..APRÈS où AVANT et APRÈS étant des charsets.
Un CHARSET omis sous-entend le charset canonique (par défaut);
une [/SURFACE]... omise sous-entend les surfaces implicites
pour CHARSET; un / sans surface indique l'absence de toute surface.
Voir le manuel de documentation!
En l'absence de «-i» ou «-p», choisir «-i» avec FICHIER, sinon «-p».
Chaque FICHIER est recodé sur lui-même, détruisant l'original.
Si aucun FICHIER n'est donné, alors agir comme un filtre
et recoder stdin sur stdout.
Rapporter tout disfonctionnement à recode-bugs@iro.umontreal.ca;
et rapporter les problèmes de francisation à fr@li.org.
«Ventile» produit des statistiques textuelles sur les éléments
constitutifs d'un texte.
Usage: ventile [OPTION]... SCAN-SPEC[,SCAN-SPEC]... FICHIER...
Options:
{-}{-}copyright afficher les conditions de copie, puis terminer
{-}{-}help fournir ce message d'aide, puis terminer
{-}{-}version identifier le programme, puis terminer
Options de sortie:
-v expliquer en mode bavard ce qui se passe
-d sortir de l'information interne pour fin de déverminage
-w WIDTH nombre de colonnes WIDTH comme largeur d'histogramme
-h CELLS nombre de pigeonniers CELLS, 0 pour aucun histogramme
Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:
P paragraphe délimité par une ou plusieurs lignes vides
S phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
V vers terminé par une ou plusieurs fins de ligne
W mot délimité par un blanc (caractère espace)
C caractère unique (énergivore en CPU)
T fournir une balise démarreur/terminateur avant et après le textuel
F reconnaître l'espace français après une ponctuation forte
«Vocable» produit des listes du vocabulaire des mots contenus
dans des fichiers textuels.
Usage: vocable [OPTION]... SCAN-SPEC[,SCAN-SPEC]... FICHIER...
Options:
{-}{-}copyright afficher les conditions de copie, puis terminer
{-}{-}help fournir ce message d'aide, puis terminer
{-}{-}version identifier le programme, puis terminer
Options de sortie:
-v expliquer en mode bavard ce qui se passe
-d sortir de l'information interne pour fin de débogage
-f trier par ordre de fréquences descendantes
-r produire les références aux lignes d'occurrence
-p SIZE paginer après SIZE lignes (aucune multi-colonne par défaut)
-w WIDTH lister les vocables sur une largeur WIDTH (79 col. par défaut)
-i produire les vocables en ordre alphabétique inverse
Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:
P paragraphe délimité par une ou plusieurs lignes vides
S phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
V vers terminé par une ou plusieurs fins de ligne
W mot délimité par un blanc (caractère espace)
C caractère unique (énergivore en CPU)
T fournir une balise démarreur/terminateur avant et après le textuel
F reconnaître l'espace français après une ponctuation forte
«Concorde» produit des concordances de mots en contexte.
Usage: concorde [OPTION]... SCAN-SPEC[,SCAN-SPEC] FICHIER...
Options:
{-}{-}copyright afficher les conditions de copie, puis terminer
{-}{-}help fournir ce message d'aide, puis terminer
{-}{-}version identifier le programme, puis terminer
Options de sortie:
-v expliquer en mode bavard ce qui se passe
-d sortir de l'information interne pour fin de débogage
-a MOT limiter la sortie ayant MOT dans le contexte gauche ou droit
-w WIDTH utiliser la valeur WIDTH comme largeur pour lister les contextes
-r WIDTH fournir les références aux lignes sur WIDTH colonnes en moyenne
-i produire les mots-vedettes en ordre alphabétique inverse
Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:
P paragraphe délimité par une ou plusieurs lignes vides
S phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
V vers terminé par une ou plusieurs fins de ligne
W mot délimité par un blanc (caractère espace)
C caractère unique (énergivore en CPU)
T fournir une balise démarreur/terminateur avant et après le textuel
F reconnaître l'espace français après une ponctuation forte
«Alibi» effectue un alignement bi-textuel de deux fichiers.
Usage: alibi [OPTION]... SCAN-SPEC[,SCAN_SPEC]... FILE-A FILE-B
Options:
{-}{-}copyright afficher les conditions de copie, puis terminer
{-}{-}help fournir ce message d'aide, puis terminer
{-}{-}version identifier le programme, puis terminer
Options d'entrée:
-r lire les fichiers binaires mais ne pas les réécrire
-x lire les fichiers binaires et les réécrire
Options d'analyse:
-z utiliser des bornes floues, non pas les bornes fortes
-v expliquer en mode bavard ce qui se passe
-d sortir de l'information interne pour fin de débogage
Options de sortie:
-a MOT sortir du FICHIER-A tout segment aligné contenant MOT
-b MOT sortir du FICHIER-B tout segment aligné contenant MOT
-e produire une sortie pour l'interface `alibi' Emacs/Ediff
-k produire la sortie en forme de boîtes sur 2 colonnes
-c justifier les deux colonnes sur la ligne du centre
-w WIDTH utiliser la valeur WIDTH comme largeur avec l'option -k
-s produire une sortie en format SGML des alignements
Options de calibrage:
-M VALEUR 100 * moyenne du rapport de longueur mot-B par longueur mot-A
-V VALEUR 100 * variance du rapport de longueur mot-B par longueur mot-A
-Z VALEUR pénalité pseudo-infinie
-A VALEUR -100 * log ([prob. de 0-1 match] / [prob. de 1-1 match])
-B VALEUR -100 * log ([prob. de 2-1 match] / [prob. de 1-1 match])
-C VALEUR -100 * log ([prob. de 2-2 match] / [prob. de 1-1 match])
SPECS est PASSE[,PASSE]... alors que PASSE est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]...
et chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:
P paragraphe délimité par une ou plusieurs lignes vides
S phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
V vers terminé par une ou plusieurs fins de ligne
W mot délimité par un blanc (caractère espace)
C caractère unique (énergivore en CPU et option peu utile)
T fournir une balise démarreur/terminateur avant et après le textuel
F reconnaître l'espace français après une ponctuation forte
Un format de sortie est impliqué par défaut si une des options -eks est omise.
Les valeurs de calibrage impliquées sont -M100 -V680 -Z2500 -A450 -B230 -C440.
Les jeux de caractères africains
afrful permettent de couvrir les alphabets du bambara,
de l'éwondo, du français et du fulfulde. Le jeu de caractères
AFRFUL-102-BPI_OCIL représente un jeu de caractères, en
version encodée, qui est utilisé pour l'affichage à l'écran des langues
africaines suivantes: le bambara, l'éwondo, le fulfulde (ou peuhl). Les
noms alias acceptables pour désigner ce jeu de caractères encodés sont
afrful102bpiocil, bambara, ewondo,
fulfulde, ou bra.
Le jeu de caractères AFRFUL-103-BPI_OCIL
représente un jeu de caractères, en version translittérée, qui est
utilisé pour l'encodage au clavier des langues africaines suivantes: le
bambara, l'éwondo, le fulfulde (ou peuhl). Les noms alias acceptables
pour désigner ce jeu de caractères translittérés sont
afrful103bpiocil, tbambara,
tewondo, tfulfulde ou tbra. Pour
chacun des 255 caractères présentés dans la liste plus bas, voici la
signification de chacune des colonnes :
UCS du caractère;
Dec Oct Hex Mne UCS2 Kbd AFRFUL-102-BPI_OCIL
0 000 00 NU 0000 nul nul
1 001 01 SH 0001 soh début d'en-tête
2 002 02 SX 0002 stx début de texte
3 003 03 EX 0003 etx fin de texte
4 004 04 ET 0004 eot fin de transmission
5 005 05 EQ 0005 enq demande
6 006 06 AK 0006 ack accusé de réception positif
7 007 07 BL 0007 bel sonnerie
8 010 08 BS 0008 bs espace arrière
9 011 09 HT 0009 ht tabulation horizontale
10 012 0a LF 000A lf interligne
11 013 0b VT 000B vt tabulation verticale
12 014 0c FF 000C ff page suivante
13 015 0d CR 000D cr retour de chariot
14 016 0e SO 000E so hors code
15 017 0f SI 000F si en code
16 020 10 DL 0010 dle échappement transmission
17 021 11 D1 0011 dc1 commande d'appareil un
18 022 12 D2 0012 dc2 commande d'appareil deux
19 023 13 D3 0013 dc3 commande d'appareil trois
20 024 14 D4 0014 dc4 commande d'appareil quatre
21 025 15 NK 0015 nak accusé de réception négatif
22 026 16 SY 0016 syn synchronisation
23 027 17 EB 0017 etb fin de transmission de bloc
24 030 18 CN 0018 can annulation
25 031 19 EM 0019 em fin de support
26 032 1a SB 001A sub caractère de substitution
27 033 1b EC 001B esc échappement
28 034 1c FS 001C is4 séparateur de fichier
29 035 1d GS 001D is3 séparateur de groupe
30 036 1e RS 001E is2 séparateur d'article
31 037 1f US 001F is1 séparateur de sous-article
32 040 20 SP 0020 < > espace
33 041 21 ! 0021 ! point d'exclamation
34 042 22 " 0022 " guillemet
35 043 23 Nb 0023 # dièse-symbole numéro (croisillon)
36 044 24 DO 0024 $ symbole dollar
37 045 25 % 0025 % symbole pour cent
38 046 26 & 0026 & perluète
39 047 27 ' 0027 ' apostrophe
40 050 28 ( 0028 ( parenthèse gauche
41 051 29 ) 0029 ) parenthèse droite
42 052 2a * 002A * astérisque
43 053 2b + 002B + signe plus
44 054 2c , 002C , virgule
45 055 2d - 002D - tiret-trait d'union, signe moins
46 056 2e . 002E . point
47 057 2f / 002F / barre oblique
48 060 30 0 0030 0 chiffre zéro
49 061 31 1 0031 1 chiffre un
50 062 32 2 0032 2 chiffre deux
51 063 33 3 0033 3 chiffre trois
52 064 34 4 0034 4 chiffre quatre
53 065 35 5 0035 5 chiffre cinq
54 066 36 6 0036 6 chiffre six
55 067 37 7 0037 7 chiffre sept
56 070 38 8 0038 8 chiffre huit
57 071 39 9 0039 9 chiffre neuf
58 072 3a : 003A : deux-points
59 073 3b ; 003B ; point-virgule
60 074 3c < 003C < signe inférieur à
61 075 3d = 003D = signe égal à
62 076 3e > 003E > signe supérieur à
63 077 3f ? 003F ? point d'interrogation
64 100 40 At 0040 @ a commercial-arobase
65 101 41 A 0041 A lettre majuscule latine A
66 102 42 B 0042 B lettre majuscule latine B
67 103 43 C 0043 C lettre majuscule latine C
68 104 44 D 0044 D lettre majuscule latine D
69 105 45 E 0045 E lettre majuscule latine E
70 106 46 F 0046 F lettre majuscule latine F
71 107 47 G 0047 G lettre majuscule latine G
72 110 48 H 0048 H lettre majuscule latine H
73 111 49 I 0049 I lettre majuscule latine I
74 112 4a J 004A J lettre majuscule latine J
75 113 4b K 004B K lettre majuscule latine K
76 114 4c L 004C L lettre majuscule latine L
77 115 4d M 004D M lettre majuscule latine M
78 116 4e N 004E N lettre majuscule latine N
79 117 4f O 004F O lettre majuscule latine O
80 120 50 P 0050 P lettre majuscule latine P
81 121 51 Q 0051 Q lettre majuscule latine Q
82 122 52 R 0052 R lettre majuscule latine R
83 123 53 S 0053 S lettre majuscule latine S
84 124 54 T 0054 T lettre majuscule latine T
85 125 55 U 0055 U lettre majuscule latine U
86 126 56 V 0056 V lettre majuscule latine V
87 127 57 W 0057 W lettre majuscule latine W
88 130 58 X 0058 X lettre majuscule latine X
89 131 59 Y 0059 Y lettre majuscule latine Y
90 132 5a Z 005A Z lettre majuscule latine Z
91 133 5b <( 005B [ crochet gauche
92 134 5c // 005C \ barre oblique inversée
93 135 5d )> 005D ] crochet droit
94 136 5e '> 005E ^ accent circonflexe
95 137 5f _ 005F _ trait bas
96 140 60 '! 0060 ` accent grave
97 141 61 a 0061 a lettre minuscule latine a
98 142 62 b 0062 b lettre minuscule latine b
99 143 63 c 0063 c lettre minuscule latine c
100 144 64 d 0064 d lettre minuscule latine d
101 145 65 e 0065 e lettre minuscule latine e
102 146 66 f 0066 f lettre minuscule latine f
103 147 67 g 0067 g lettre minuscule latine g
104 150 68 h 0068 h lettre minuscule latine h
105 151 69 i 0069 i lettre minuscule latine i
106 152 6a j 006A j lettre minuscule latine j
107 153 6b k 006B k lettre minuscule latine k
108 154 6c l 006C l lettre minuscule latine l
109 155 6d m 006D m lettre minuscule latine m
110 156 6e n 006E n lettre minuscule latine n
111 157 6f o 006F o lettre minuscule latine o
112 160 70 p 0070 p lettre minuscule latine p
113 161 71 q 0071 q lettre minuscule latine q
114 162 72 r 0072 r lettre minuscule latine r
115 163 73 s 0073 s lettre minuscule latine s
116 164 74 t 0074 t lettre minuscule latine t
117 165 75 u 0075 u lettre minuscule latine u
118 166 76 v 0076 v lettre minuscule latine v
119 167 77 w 0077 w lettre minuscule latine w
120 170 78 x 0078 x lettre minuscule latine x
121 171 79 y 0079 y lettre minuscule latine y
122 172 7a z 007A z lettre minuscule latine z
123 173 7b (! 007B { accolade gauche
124 174 7c !! 007C | barre verticale
125 175 7d !) 007D } accolade droite
126 176 7e '? 007E ~ tilde
127 177 7f DT 007F del suppression
128 200 80 PA 0080 pad caractère de bourre
129 201 81 HO 0081 hop octet supérieur prédéfini
130 202 82 BH 0082 bph arrêt permis ici
131 203 83 NH 0083 nbh aucun arrêt ici
132 204 84 IN 0084 ind index
133 205 85 NL 0085 nel à la ligne
134 206 86 SA 0086 ssa début de zone sélectionnée
135 207 87 ES 0087 esa fin de zone sélectionnée
136 210 88 HS 0088 hts arrêt de tabulateur horizontal
137 211 89 HJ 0089 htj tabulateur horizontal avec justification
138 212 8a VS 008A vts arrêt de tabulateur vertical
139 213 8b PD 008B pld interligne partiel vers le bas
140 214 8c PU 008C plu interligne partiel vers le haut
141 215 8d RI 008D ri index inversé
142 216 8e S2 008E ss2 remplacement unique deux
143 217 8f S3 008F ss3 remplacement unique trois
144 220 90 DC 0090 dcs chaîne de commande d'appareil
145 221 91 P1 0091 pu1 usage privé un
146 222 92 P2 0092 pu2 usage privé deux
147 223 93 TS 0093 sts mise en mode transmission
148 224 94 CC 0094 cch annulation du caractère précédent
149 225 95 MW 0095 mw message en attente
150 226 96 SG 0096 sga début de zone protégée
151 227 97 EG 0097 ega fin de zone protégée
152 230 98 SS 0098 sos début de chaîne
153 231 99 GC 0099 sgci introducteur de caractère graphique unique
154 232 9a SC 009A sci introducteur de caractère unique
155 233 9b CI 009B csi introducteur de séquence de commande
156 234 9c ST 009C st fin de chaîne
157 235 9d OC 009D osc commande de système d'exploitation
158 236 9e PM 009E pm message privé
159 237 9f AC 009F apc commande de progiciel
160 240 a0 NS 00A0 /_ espace insécable
161 241 a1 0181 B[ lettre maj. latine B crosse
162 242 a2 018A D[ lettre maj. latine D crosse
163 243 a3 0194 G] lettre maj. latine Gamma
164 244 a4 0198 K[ lettre maj. latine K crosse
165 245 a5 01A4 P[ lettre maj. latine P crosse
166 246 a6 01AC T[ lettre maj. latine T crosse
167 247 a7 01A9 S] lettre maj. latine ESH
168 250 a8 019D N] lettre maj. latine N hameçon (enj)
169 251 a9 014A N[ lettre maj. latine ENG (Sami)
170 252 aa 0189 D] lettre maj. latine D africain (edh)
171 253 ab << 00AB << guillemet angulaire double vers la gauche
172 254 ac 0191 F] lettre maj. latine F hameçon
173 255 ad -- 00AD \- tiret conditionnel (trait d'union virtuel)
174 256 ae 01B3 Y[ lettre maj. latine Y crosse
175 257 af 0193 G[ lettre maj. latine G crosse
176 260 b0 DG 00B0 _DG symbole degré
177 261 b1 0253 b[ lettre min. latine b crosse
178 262 b2 0257 d[ lettre min. latine d crosse
179 263 b3 0263 g] lettre min. latine gamma
180 264 b4 0199 k[ lettre min. latine k crosse
181 265 b5 01A5 p[ lettre min. latine p crosse
182 266 b6 01AD t[ lettre min. latine t crosse
183 267 b7 0283 s] lettre min. latine esh
184 270 b8 0272 n] lettre min. latine n hameçon à gauche (enj)
185 271 b9 014B n[ lettre min. latine eng (Sami)
186 272 ba 0256 d] lettre min. latine d hameçon rétroflexe
187 273 bb >> 00BB >> guillemet angulaire double vers la droite
188 274 bc 0192 f] lettre min. latine f hameçon
189 275 bd 0294 ?^ lettre latine coup de glotte
190 276 be 01B4 y[ lettre min. latine y crosse
191 277 bf 0260 g[ lettre min. latine g crosse
192 300 c0 A! 00C0 A` lettre maj. latine A accent grave
193 301 c1 A' 00C1 A\' lettre maj. latine A accent aigu
194 302 c2 A> 00C2 A^ lettre maj. latine A accent circonflexe
195 303 c3 A? 00C3 A~ lettre maj. latine A tilde
196 304 c4 A: 00C4 A" lettre maj. latine A tréma
197 305 c5 018E E< lettre maj. latine E réfléchi (schwa)
198 306 c6 AE 00C6 AE+ lettre maj. latine AE (ligature
199 307 c7 C, 00C7 C\, lettre maj. latine C cédille
200 310 c8 E! 00C8 E` lettre maj. latine E accent grave
201 311 c9 E' 00C9 E\' lettre maj. latine E accent aigu
202 312 ca E> 00CA E^ lettre maj. latine E accent circonflexe
203 313 cb E: 00CB E" lettre maj. latine E tréma
204 314 cc I! 00CC I` lettre maj. latine I accent grave
205 315 cd I' 00CD I\' lettre maj. latine I accent aigu
206 316 ce I> 00CE I^ lettre maj. latine I accent circonflexe
207 317 cf I: 00CF I" lettre maj. latine I tréma
208 320 d0 0190 E[ lettre maj. latine E ouvert
209 321 d1 N? 00D1 N~ lettre maj. latine N tilde
210 322 d2 O! 00D2 O` lettre maj. latine O accent grave
211 323 d3 O' 00D3 O\' lettre maj. latine O accent aigu
212 324 d4 O> 00D4 O^ lettre maj. latine O accent circonflexe
213 325 d5 O? 00D5 O~ lettre maj. latine O tilde
214 326 d6 O: 00D6 O" lettre maj. latine O tréma
215 327 d7 0152 OE+ digramme soudé maj. latin OE (ligature OE)
216 330 d8 0186 O[ lettre maj. latine O ouvert
217 331 d9 U! 00D9 U` lettre maj. latine U accent grave
218 332 da U' 00DA U\' lettre maj. latine U accent aigu
219 333 db U> 00DB U^ lettre maj. latine U accent circonflexe
220 334 dc U: 00DC U" lettre maj. latine U tréma
221 335 dd 018E+0301 E<' lettre maj. latine E réfléchi accent aigu
222 336 de 0186+0301 O[' lettre maj. latine O ouvert accent aigu
223 337 df 01B2 V[ lettre maj. latine V crosse
224 340 e0 a! 00E0 a` lettre min. latine a accent grave
225 341 e1 a' 00E1 a\' lettre min. latine a accent aigu
226 342 e2 a> 00E2 a^ lettre min. latine a accent circonflexe
227 343 e3 a? 00E3 a~ lettre min. latine a tilde
228 344 e4 a: 00E4 a" lettre min. latine a tréma
229 345 e5 0259 e< lettre min. latine schwa (e culbuté)
230 346 e6 ae 00E6 ae+ lettre min. latine ae
231 347 e7 c, 00E7 c\, lettre min. latine c cédille
232 350 e8 e! 00E8 e` lettre min. latine e accent grave
233 351 e9 e' 00E9 e\' lettre min. latine e accent aigu
234 352 ea e> 00EA e^ lettre min. latine e accent circonflexe
235 353 eb e: 00EB e" lettre min. latine e tréma
236 354 ec i! 00EC i` lettre min. latine i accent grave
237 355 ed i' 00ED i\' lettre min. latine i accent aigu
238 356 ee i> 00EE i^ lettre min. latine i accent circonlexe
239 357 ef i: 00EF i" lettre min. latine i tréma
240 360 f0 025B e[ lettre min. latine e ouvert
241 361 f1 n? 00F1 n~ lettre min. latine n tilde
242 362 f2 o! 00F2 o` lettre min. latine o accent grave
243 363 f3 o' 00F3 o\' lettre min. latine o accent aigu
244 364 f4 o> 00F4 o^ lettre min. latine o accent circonflexe
245 365 f5 o? 00F5 o~ lettre min. latine o tilde
246 366 f6 o: 00F6 o" lettre min. latine o tréma
247 367 f7 0153 oe+ digramme soudé min. latin oe (ligature oe)
248 370 f8 0254 o[ lettre min. latine o ouvert
249 371 f9 u! 00F9 u` lettre min. latine u accent grave
250 372 fa u' 00FA u\' lettre min. latine u accent aigu
251 373 fb u> 00FB u^ lettre min. latine u accent circonflexe
252 374 fc u: 00FC u" lettre min. latine u tréma
253 375 fd 0259+0301 e<' lettre min. latine schwa accent aigu
254 376 fe 0254+0301 o[' lettre min. latine o ouvert accent aigu
255 377 ff 028B v[ lettre min. latine v de ronde
Les jeux de caractères africains
afrlin permettent de couvrir les alphabets du français,
du lingala, du sango et du wolof. Le jeu de caractères
AFRLIN-104-BPI_OCIL représente un jeu de caractères, en
version encodée, qui est utilisé pour l'affichage à l'écran des langues
africaines suivantes: le lingala, le sango, le wolof. Les noms alias
acceptables pour désigner ce jeu de caractères encodés sont
afrlin104bpiocil, lingala, sango,
wolof, ou lin.
Le jeu de caractères AFRLIN-105-BPI_OCIL
représente un jeu de caractères, en version translittérée, qui est
utilisé pour l'encodage au clavier des langues africaines suivantes: le
lingala, le sango, le wolof. Les noms alias acceptables pour désigner ce
jeu de caractères translittérés sont afrlin105bpiocil,
tlingala, tsango, twolof ou
tlin. Pour chacun des 255 caractères présentés dans la
liste plus bas, voici la signification de chacune des colonnes :
UCS du caractère;
Dec Oct Hex Mne UCS2 Kbd AFRLIN-104-BPI_OCIL
0 000 00 NU 0000 nul nul
1 001 01 SH 0001 soh début d'en-tête
2 002 02 SX 0002 stx début de texte
3 003 03 EX 0003 etx fin de texte
4 004 04 ET 0004 eot fin de transmission
5 005 05 EQ 0005 enq demande
6 006 06 AK 0006 ack accusé de réception positif
7 007 07 BL 0007 bel sonnerie
8 010 08 BS 0008 bs espace arrière
9 011 09 HT 0009 ht tabulation horizontale
10 012 0a LF 000A lf interligne
11 013 0b VT 000B vt tabulation verticale
12 014 0c FF 000C ff page suivante
13 015 0d CR 000D cr retour de chariot
14 016 0e SO 000E so hors code
15 017 0f SI 000F si en code
16 020 10 DL 0010 dle échappement transmission
17 021 11 D1 0011 dc1 commande d'appareil un
18 022 12 D2 0012 dc2 commande d'appareil deux
19 023 13 D3 0013 dc3 commande d'appareil trois
20 024 14 D4 0014 dc4 commande d'appareil quatre
21 025 15 NK 0015 nak accusé de réception négatif
22 026 16 SY 0016 syn synchronisation
23 027 17 EB 0017 etb fin de transmission de bloc
24 030 18 CN 0018 can annulation
25 031 19 EM 0019 em fin de support
26 032 1a SB 001A sub caractère de substitution
27 033 1b EC 001B esc échappement
28 034 1c FS 001C is4 séparateur de fichier
29 035 1d GS 001D is3 séparateur de groupe
30 036 1e RS 001E is2 séparateur d'article
31 037 1f US 001F is1 séparateur de sous-article
32 040 20 SP 0020 < > espace
33 041 21 ! 0021 ! point d'exclamation
34 042 22 " 0022 " guillemet
35 043 23 Nb 0023 # dièse-symbole numéro (croisillon)
36 044 24 DO 0024 $ symbole dollar
37 045 25 % 0025 % symbole pour cent
38 046 26 & 0026 & perluète
39 047 27 ' 0027 ' apostrophe
40 050 28 ( 0028 ( parenthèse gauche
41 051 29 ) 0029 ) parenthèse droite
42 052 2a * 002A * astérisque
43 053 2b + 002B + signe plus
44 054 2c , 002C , virgule
45 055 2d - 002D - tiret-trait d'union, signe moins
46 056 2e . 002E . point
47 057 2f / 002F / barre oblique
48 060 30 0 0030 0 chiffre zéro
49 061 31 1 0031 1 chiffre un
50 062 32 2 0032 2 chiffre deux
51 063 33 3 0033 3 chiffre trois
52 064 34 4 0034 4 chiffre quatre
53 065 35 5 0035 5 chiffre cinq
54 066 36 6 0036 6 chiffre six
55 067 37 7 0037 7 chiffre sept
56 070 38 8 0038 8 chiffre huit
57 071 39 9 0039 9 chiffre neuf
58 072 3a : 003A : deux-points
59 073 3b ; 003B ; point-virgule
60 074 3c < 003C < signe inférieur à
61 075 3d = 003D = signe égal à
62 076 3e > 003E > signe supérieur à
63 077 3f ? 003F ? point d'interrogation
64 100 40 At 0040 @ a commercial-arobase
65 101 41 A 0041 A lettre majuscule latine A
66 102 42 B 0042 B lettre majuscule latine B
67 103 43 C 0043 C lettre majuscule latine C
68 104 44 D 0044 D lettre majuscule latine D
69 105 45 E 0045 E lettre majuscule latine E
70 106 46 F 0046 F lettre majuscule latine F
71 107 47 G 0047 G lettre majuscule latine G
72 110 48 H 0048 H lettre majuscule latine H
73 111 49 I 0049 I lettre majuscule latine I
74 112 4a J 004A J lettre majuscule latine J
75 113 4b K 004B K lettre majuscule latine K
76 114 4c L 004C L lettre majuscule latine L
77 115 4d M 004D M lettre majuscule latine M
78 116 4e N 004E N lettre majuscule latine N
79 117 4f O 004F O lettre majuscule latine O
80 120 50 P 0050 P lettre majuscule latine P
81 121 51 Q 0051 Q lettre majuscule latine Q
82 122 52 R 0052 R lettre majuscule latine R
83 123 53 S 0053 S lettre majuscule latine S
84 124 54 T 0054 T lettre majuscule latine T
85 125 55 U 0055 U lettre majuscule latine U
86 126 56 V 0056 V lettre majuscule latine V
87 127 57 W 0057 W lettre majuscule latine W
88 130 58 X 0058 X lettre majuscule latine X
89 131 59 Y 0059 Y lettre majuscule latine Y
90 132 5a Z 005A Z lettre majuscule latine Z
91 133 5b <( 005B [ crochet gauche
92 134 5c // 005C \ barre oblique inversée
93 135 5d )> 005D ] crochet droit
94 136 5e '> 005E ^ accent circonflexe
95 137 5f _ 005F _ trait bas
96 140 60 '! 0060 ` accent grave
97 141 61 a 0061 a lettre minuscule latine a
98 142 62 b 0062 b lettre minuscule latine b
99 143 63 c 0063 c lettre minuscule latine c
100 144 64 d 0064 d lettre minuscule latine d
101 145 65 e 0065 e lettre minuscule latine e
102 146 66 f 0066 f lettre minuscule latine f
103 147 67 g 0067 g lettre minuscule latine g
104 150 68 h 0068 h lettre minuscule latine h
105 151 69 i 0069 i lettre minuscule latine i
106 152 6a j 006A j lettre minuscule latine j
107 153 6b k 006B k lettre minuscule latine k
108 154 6c l 006C l lettre minuscule latine l
109 155 6d m 006D m lettre minuscule latine m
110 156 6e n 006E n lettre minuscule latine n
111 157 6f o 006F o lettre minuscule latine o
112 160 70 p 0070 p lettre minuscule latine p
113 161 71 q 0071 q lettre minuscule latine q
114 162 72 r 0072 r lettre minuscule latine r
115 163 73 s 0073 s lettre minuscule latine s
116 164 74 t 0074 t lettre minuscule latine t
117 165 75 u 0075 u lettre minuscule latine u
118 166 76 v 0076 v lettre minuscule latine v
119 167 77 w 0077 w lettre minuscule latine w
120 170 78 x 0078 x lettre minuscule latine x
121 171 79 y 0079 y lettre minuscule latine y
122 172 7a z 007A z lettre minuscule latine z
123 173 7b (! 007B { accolade gauche
124 174 7c !! 007C | barre verticale
125 175 7d !) 007D } accolade droite
126 176 7e '? 007E ~ tilde
127 177 7f DT 007F del suppression
128 200 80 PA 0080 pad caractère de bourre
129 201 81 HO 0081 hop octet supérieur prédéfini
130 202 82 BH 0082 bph arrêt permis ici
131 203 83 NH 0083 nbh aucun arrêt ici
132 204 84 IN 0084 ind index
133 205 85 NL 0085 nel à la ligne
134 206 86 SA 0086 ssa début de zone sélectionnée
135 207 87 ES 0087 esa fin de zone sélectionnée
136 210 88 HS 0088 hts arrêt de tabulateur horizontal
137 211 89 HJ 0089 htj tabulateur horizontal avec justification
138 212 8a VS 008A vts arrêt de tabulateur vertical
139 213 8b PD 008B pld interligne partiel vers le bas
140 214 8c PU 008C plu interligne partiel vers le haut
141 215 8d RI 008D ri index inversé
142 216 8e S2 008E ss2 remplacement unique deux
143 217 8f S3 008F ss3 remplacement unique trois
144 220 90 DC 0090 dcs chaîne de commande d'appareil
145 221 91 P1 0091 pu1 usage privé un
146 222 92 P2 0092 pu2 usage privé deux
147 223 93 TS 0093 sts mise en mode transmission
148 224 94 CC 0094 cch annulation du caractère précédent
149 225 95 MW 0095 mw message en attente
150 226 96 SG 0096 sga début de zone protégée
151 227 97 EG 0097 ega fin de zone protégée
152 230 98 SS 0098 sos début de chaîne
153 231 99 GC 0099 sgci introducteur de caractère graphique unique
154 232 9a SC 009A sci introducteur de caractère unique
155 233 9b CI 009B csi introducteur de séquence de commande
156 234 9c ST 009C st fin de chaîne
157 235 9d OC 009D osc commande de système d'exploitation
158 236 9e PM 009E pm message privé
159 237 9f AC 009F apc commande de progiciel
160 240 a0 NS 00A0 /_ espace insécable
161 241 a1 0190+0300 E[` lettre maj. latine E ouvert accent grave
162 242 a2 0190+0301 E[' lettre maj. latine E ouvert accent aigu
163 243 a3 0190+0302 E[^ lettre maj. latine E ouvert accent circonflexe
164 244 a4 0190+030C E[\v lettre maj. latine E ouvert caron
165 245 a5 0186+0300 O[` lettre maj. latine O ouvert accent grave
166 246 a6 0186+0301 O[' lettre maj. latine O ouvert accent aigu
167 247 a7 0186+0302 O[^ lettre maj. latine O ouvert accent circonflexe
168 250 a8 019D N] lettre maj. latine N hameçon (ENJ)
169 251 a9 014A N[ lettre maj. latine ENG (Sami)
170 252 aa 004E+0302 N^ lettre maj. latine N accent circonflexe
171 253 ab << 00AB << guillemet gauche
172 254 ac 004E+0308 N" lettre maj. latine N tréma
173 255 ad -- 00AD \- trait d'union virtuel (tiret conditionnel)
174 256 ae 01B3 Y[ lettre maj. latine Y crosse
175 257 af 0186+030C O[\v lettre maj. latine O ouvert caron
176 260 b0 00B0 _DG symbole degré
177 261 b1 025B+0300 e[` lettre min. latine e ouvert accent grave
178 262 b2 025B+0301 e[' lettre min. latine e ouvert accent aigu
179 263 b3 025B+0302 e[^ lettre min. latine e ouvert accent circonflexe
180 264 b4 025B+030C e[\v lettre min. latine e ouvert caron
181 265 b5 0254+0300 o[` lettre min. latine o ouvert accent grave
182 266 b6 0254+0301 o[' lettre min. latine o ouvert accent aigu
183 267 b7 0254+0302 o[^ lettre min. latine o ouvert circonflexe
184 270 b8 0272 n] lettre min. latine n hameçon à gauche (enj)
185 271 b9 014B n[ lettre min. latine eng (Sami)
186 272 ba 006E+0302 n^ lettre min. latine n circonflexe
187 273 bb >> 00BB >> guillemet droit
188 274 bc 006E+0308 n" lettre min. latine n tréma
189 275 bd 0294 ?^ lettre latine coup de glotte
190 276 be 01B4 y[ lettre minuscule latine y crosse
191 277 bf 0254+030C o[\v lettre min. latine o ouvert caron
192 300 c0 A! 00C0 A` lettre maj. latine A accent grave
193 301 c1 A' 00C1 A\' lettre maj. latine A accent aigu
194 302 c2 A> 00C2 A^ lettre maj. latine A accent circonflexe
195 303 c3 01CD A\v lettre maj. latine A caron
196 304 c4 A: 00C4 A" lettre maj. latine A tréma
197 305 c5 018E E< lettre maj. latine E réfléchi
198 306 c6 AE 00C6 AE+ lettre maj. latine AE (ligature)
199 307 c7 C, 00C7 C\, lettre maj. latine C cédille
200 310 c8 E! 00C8 E` lettre maj. latine E accent grave
201 311 c9 E' 00C9 E\' lettre maj. latine E accent aigu
202 312 ca E> 00CA E^ lettre maj. latine E accent circonflexe
203 313 cb E: 00CB E" lettre maj. latine E tréma
204 314 cc I! 00CC I` lettre maj. latine I accent grave
205 315 cd I' 00CD I\' lettre maj. latine I accent aigu
206 316 ce I> 00CE I^ lettre maj. latine I accent circonflexe
207 317 cf I: 00CF I" lettre maj. latine I tréma
208 320 d0 0190 E[ lettre maj. latine E ouvert
209 321 d1 N? 00D1 N~ lettre maj. latine N tilde
210 322 d2 O! 00D2 O` lettre maj. latine O accent grave
211 323 d3 O' 00D3 O\' lettre maj. latine O accent aigu
212 324 d4 O> 00D4 O^ lettre maj. latine O accent circonflexe
213 325 d5 O? 01D1 O\v lettre maj. latine O caron
214 326 d6 O: 00D6 O" lettre maj. latine O tréma
215 327 d7 0152 OE+ digramme soudé maj. latin OE (ligature OE)
216 330 d8 0186 O[ lettre maj. latine O ouvert
217 331 d9 U! 00D9 U` lettre maj. latine U accent grave
218 332 da U' 00DA U\' lettre maj. latine U accent aigu
219 333 db U> 00DB U^ lettre maj. latine U accent circonflexe
220 334 dc U: 00DC U" lettre maj. latine U tréma
221 335 dd 011A E\v lettre maj. latine E caron
222 336 de 01CF I\v lettre maj. latine I caron
223 337 df 01D3 U\v lettre maj. latine U caron
224 340 e0 a! 00E0 a` lettre min. latine a accent grave
225 341 e1 a' 00E1 a\' lettre min. latine a accent aigu
226 342 e2 a> 00E2 a^ lettre min. latine a accent circonflexe
227 343 e3 01CE a\v lettre min. latine a caron
228 344 e4 a: 00E4 a" lettre min. latine a tréma
229 345 e5 0259 e< lettre minuscule latine schwa (e culbuté)
230 346 e6 ae 00E6 ae+ lettre min. latine ae (ligature ae)
231 347 e7 c, 00E7 c\, lettre min. latine c cédille
232 350 e8 e! 00E8 e` lettre min. latine e accent grave
233 351 e9 e' 00E9 e\' lettre min. latine e accent aigu
234 352 ea e> 00EA e^ lettre min. latine e accent circonflexe
235 353 eb e: 00EB e" lettre min. latine e tréma
236 354 ec i! 00EC i` lettre min. latine i accent grave
237 355 ed i' 00ED i\' lettre min. latine i accent aigu
238 356 ee i> 00EE i^ lettre min. latine i accent circonlexe
239 357 ef i: 00EF i" lettre min. latine i tréma
240 360 f0 025B e[ lettre min. latine e ouvert
241 361 f1 n? 00F1 n~ lettre min. latine n tilde
242 362 f2 o! 00F2 o` lettre min. latine o accent grave
243 363 f3 o' 00F3 o\' lettre min. latine o accent aigu
244 364 f4 o> 00F4 o^ lettre min. latine o accent circonflexe
245 365 f5 01D2 o\v lettre min. latine o caron
246 366 f6 o: 00F6 o" lettre min. latine o tréma
247 367 f7 0153 oe+ digramme soudé min. latin oe (ligature oe)
248 370 f8 0254 o[ lettre min. latine o ouvert
249 371 f9 u! 00F9 u` lettre min. latine u accent grave
250 372 fa u' 00FA u\' lettre min. latine u accent aigu
251 373 fb u> 00FB u^ lettre min. latine u accent circonflexe
252 374 fc u: 00FC u" lettre min. latine u tréma
253 375 fd 011B e\v lettre min. latine e caron
254 376 fe 01D0 i\v lettre min. latine i caron
255 377 ff 01D4 u\v lettre min. latine u caron
Les trois tableaux suivants permettent de donner un aperçu du jeu de caractères des fontes EC et des fontes FC. Pour plus de détails sur ces fontes, consultez Knappen [1998a] et Knappen [1998b].
Cette fonte fc de Knappen permet de couvrir la typographie des 40 langues africaines suivantes: akan, bamileke, basa (kru), bemba, ciokwe, dinka, dholuo (luo), efik, ewe-fon, fulani (fulful), gã, gbaya, hausa, igbo, kanuri, kikuyu, kikongo, kpelle, krio, luba, mandekan (bambara), mende, more, ngala, nyanja, oromo, rundi, kinya rwanda, sango, serer, shona, somali, songhai, sotho, suaheli, tiv, yao, yoruba, xhosa, zulu.
8859-1:1987 Éd.1 7p. (D) JTC1/SC2. Alphabet latin no. 1. 8859-2:1987 Éd.1 6p. (C) JTC1/SC2. Alphabet latin no. 2. 8859-3:1988 Éd.1 5p. (C) JTC1/SC2. Alphabet latin no. 3. 8859-4:1988 Éd.1 5p. (C) JTC1/SC2. Alphabet latin no. 4. 8859-5:1988 Éd.1 5p. (C) JTC1/SC2. Alphabet latin/cyrillique. 8859-6:1987 Éd.1 5p. (C) JTC1/SC2. Alphabet latin/arabe. 8859-7:1987 Éd.1 5p. (C) JTC1/SC2. Alphabet latin/grec. 8859-8:1988 Éd.1 5p. (C) JTC1/SC2. Alphabet latin/hébreu. 8859-9:1989 Éd.1 5p. (C) JTC1/SC2. Alphabet latin no. 5. 8859-10:1992 Éd.1 15p. (H) JTC1/SC2. Alphabet latin no. 6.
|
Accueil TCAO |
Remerciements |
Un aperçu |
Licence BPI |
Distribution |
Installation |
Claviers | Pointeurs | Alibi | Concorde | Recode | Ventile | Vocable | Accueil BPI |
http://progiciels-bpi.ca |
bourbeau@progiciels-bpi.ca
Copyright © Progiciels Bourbeau Pinard inc., Montréal, 1999.
Tous droits réservés / All rights reserved.