| |
|
Accueil TCAO |
Remerciements |
Un aperçu |
Licence BPI |
Distribution |
Installation |
Claviers | Pointeurs | Alibi | Concorde | Recode | Ventile | Vocable | Accueil BPI |
Pour exploiter les progiciels de TCAO, il faut disposer d'une version électronique de fichiers textuels écrits dans l'une ou l'autre des langues naturelles supportées. Comme fichier d'entrée, un fichier textuel peut être soit un fichier en format plein texte ou soit un fichier en format HTML ou en format SGML.
Pour écrire un fichier textuel selon l'une ou l'autre des langues africaines supportées, il faut suivre les conventions de clavier proposées dans la prochaine section. Selon le charset utilisé, un fichier textuel africain est qualifié soit de fichier encodé ou soit de fichier translittéré.
Pour éditer électroniquement un fichier textuel, un utilisateur peut se servir soit d'un éditeur de texte comme Emacs (Stallman [1996]) ou soit d'un logiciel de traitement de texte comme Word de Microsoft ou WordPerfect de Corel. Toutefois, tout fichier textuel résultant doit être en format plein texte. Pour obtenir un fichier en format plein texte à partir de Word ou de WordPerfect, il faut alors fermer le fichier textuel sous le mode ASCII standard afin d'éliminer tous les codes de formatage propriétaires spécifiques à chacun de ces logiciels de traitement de texte.
Dans la présente section, sont présentées les conventions de clavier que nous proposons pour identifier les caractères orthographiques de langues africaines. Dans une première étape, une première convention de clavier a été fabriquée afin de rendre compte uniquement des six langues africaines que nous avions à traiter.
Dans une deuxième étape, pour généraliser cette convention de clavier, nous avons dépouillé tout le manuel SIL [1993] contenant les alphabets orthographiques de plus de 300 langues africaines. Même si notre documentation TCAO ne présente que deux jeux de caractères africains, les conventions de clavier formulées dans les prochaines sections permettent de couvrir l'orthographe de plus de 300 langues africaines.
Dans cette convention de clavier, les caractères utilisés se limitent aux 127 premiers caractères de l'ASCII standard. Cela implique que nous n'avons alors à notre disposition que 95 caractères de base (i.e. les 127 premiers caractères moins les 32 caractères de contrôle) pour codifier tous les autres caractères africains. Cette convention de clavier permet de produire un fichier contenant une langue africaine en version translittérée. Notons qu'une version translittérée d'un texte africain pourrait fort bien être utilisée comme format à sept bits pour transmettre directement des textes en langues africaines par courrier électronique.
Dans les prochaines sous-sections, les conventions de
clavier sont présentées globalement afin de faire ressortir les grands
principes. Pour obtenir explicitement la codification au clavier de
chacun des caractères du jeu du jeu africain
AFRFUL-102-BPI_OCIL, voir la rubrique
Un aperçu - Annexe 2 - Jeu de caractères
AFRFUL. Pour la codification au clavier de chacun des caractères du
jeu AFRLIN-104-BPI_OCIL, voir la rubrique
Un aperçu - Annexe 3 - Jeu de caractères
AFRLIN.
La première colonne du Tableau 1 contient la liste des codes qui sont utilisés pour marquer les diacritiques. Par convention, un code de diacritique doit être placé immédiatement après le caractère qu'il qualifie. Dans ce tableau, les signes diacritiques ont été ordonnés selon leur poids de tri respectif conformément à la norme ISO 14651.
| TABLEAU 1 - Signes diacritiques | ||
|---|---|---|
| Code | Encodage Clavier Exemple |
Identification du signe diacritique |
| \' | A\' | Accent aigu |
| ` | A` | Accent grave |
| \u | A\u | Brève |
| ^ | A^ | Accent circonflexe |
| \v | A\v | Caron (hacek) |
| \R | A\R | Rond en chef |
| " | A" | Tréma (umlaut) |
| \H | O\H | Double accent aigu (hongrois) |
| ~ | A~ | Tilde (squiggle) |
| \D | E\D | Point en chef |
| \d | E\d | Point souscrit |
| \X | O\X | Barre oblique longue |
| \X | T\X | Barre oblique courte |
| \, | C\, | Cédille |
| \g | A\g | Ogonek |
| = | E= | Macron en chef |
| \m | E\m | Macron souscrit |
Il est opportun de noter que les présentes conventions de clavier doivent être considérées comme étant une convention normalisée d'écriture des caractères africains n'utilisant que 95 caractères de base pour les représenter et non pas comme étant des pilotes de clavier proprement dits. Une telle convention d'écriture est nécessaire à titre de format d'échange de fichiers textuels en langues africaines. Pour un éditeur de textes donné, rien n'empêche de configurer des macros de clavier qui utiliseraient internement ces conventions claviers afin de visualiser dynamiquement le caractère africain désiré pendant l'entrée de données textuelles.
Dans plusieurs langues africaines, aux lettres latines de base s'ajoutent un certain nombre de voyelles et de consonnes autonomes que nous qualifions de spécifique. La première colonne du Tableau 2 contient la liste des codes qui sont utilisés pour marquer les voyelles spécifiques.
| TABLEAU 2 - Voyelles spécifiques | ||
|---|---|---|
| Code | Encodage Clavier Exemple |
Identification de voyelles |
| [ | E[ | E majuscule ouvert |
| [ | o[ | o minuscule ouvert |
| [ | V[ | V majuscule crochet haut (variante de U) |
| [ | i[ | iota minuscule latin |
| \. | i\. | i minuscule sans point |
| < | E< | E majuscule renversé (schwa) |
| < | e< | e minuscule culbuté (schwa) |
| AE+ | AE+ | AE majuscule (ligature) |
| OE+ | OE+ | OE majuscule (ligature) |
| ?^ | ?^ | Coup de glotte (comme lettre) |
| ?' | ?' | Coup de glotte (comme modifieur) |
La norme ISO 6438 portant sur les langues africaines énumère plusieurs types d'arrêt glotal (ou coup de glotte) qui figurent parmi la liste du Tableau 3. Suite à notre dépouillement du manuel SIL [1993], nous n'avons retenu pour l'instant dans notre convention de clavier que la lettre arrêt glottal et le modifieur arrêt glottal.
| TABLEAU 3 - Coups de glotte | |
|---|---|
| Code UCS2 | Identification des coups de glotte |
| U0294 | Lettre arrêt glottal |
| U0295 | Lettre fricative voisée pharyngale |
| U0296 | Lettre arrêt glottal renversé |
| U0298 | Lettre clic bilabial |
| U02A1 | Lettre arrêt glottal barré |
| U02A2 | Lettre arrêt glottal barré réfléchi |
| U02BC | Modifieur lettre apostrophe (coup de glotte ?') |
| U02C0 | Modifieur arrêt glottal |
| U02C1 | Modifieur arrêt glottal renversé |
| U02E4 | Modifieur arrêt glottal réfléchi minuscule |
La première colonne du Tableau 4 contient la liste des codes qui sont utilisés pour marquer les consonnes spécifiques. Par convention, le code correspondant doit être placé immédiatement après le caractère qu'il qualifie.
| TABLEAU 4 - Consonnes spécifiques | ||
|---|---|---|
| Code | Encodage Clavier Exemple |
Identification de consonnes |
| [ | P[ | P majuscule crochet haut (hooktop) |
| [ | T[ | T majuscule crochet haut |
| [ | K[ | K majuscule crochet haut |
| [ | B[ | B majuscule crochet haut |
| [ | D[ | D majuscule crochet haut |
| [ | y[ | y minuscule crochet haut |
| [ | N[ | N majuscule crochet bas central (eng) |
| ] | N] | N majuscule crochet bas gauche (enj) |
| ] | g] | g minuscule gamma ipa |
| ] | d] | d minuscule crochet bas (d africain) |
| ] | D] | D majuscule crochet médian (D africain) |
| ] | F] | F majuscule crochet bas |
| ] | S] | S majuscule (esh) |
| ] | Z] | Z majuscule (ezh) |
Un caractère composite se définit comme étant un caractère spécifique auquel on ajoute un signe diacritique. La première colonne du Tableau 5 contient une liste de codes qui sont utilisés pour marquer les caractères composites. Par convention, le code correspondant doit être placé immédiatement après le caractère qu'il qualifie.
Ce Tableau 5 ne contient pas la liste
exhaustive de tous les caractères composites africains possibles. Pour
imaginer une telle liste, il suffit de faire la combinatoire à partir
d'un des caractères spécifiques suivi d'un des 17 signes diacritiques
énoncés dans le Tableau 1. Dans la plupart des cas, un
caractère composite nécessite internement deux codes UCS2
juxtaposés pour représenter logiquement un seul et même caractère
africain.
| TABLEAU 5 - Caractères composites | ||
|---|---|---|
| Code | Encodage Clavier Exemple |
Identification de caractères |
| [' | O[' | O majuscule ouvert accent aigu |
| [` | e[` | e minuscule ouvert accent grave |
| [^ | e[^ | e minuscule ouvert accent circonflexe |
| [^ | i[^ | iota minuscule circonflexe |
| [\v | o[\v | o minuscule ouvert caron |
| [= | e[= | e minuscule ouvert macron |
| <^ | e<^ | e minuscule culbuté circonflexe |
| <\v | E<\v | E majuscule renversé caron |
Les langues africaines se caractérisent entre autres par l'usage de digraphes et de trigraphes. Pour respecter le génie linguistique de ces langues africaines, il faut rendre compte de ce phénomène dans le tri alphabétique de ces langues. Un digraphe est constitué de deux caractères orthographiques mais où le tout est logiquement un seul caractère. Tout comme le trigraphe est constitué de trois caractères orthographiques. De plus, dans un digraphe ou un trigraphe, il peut aussi y avoir un caractère spécifique ou un caractère composite.
Le Tableau 6 ne contient que les digraphes et trigraphes qui sont en usage dans l'une ou l'autre des six langues suivantes: le bambara, l'éwondo, le fulfulde, le lingala, le sango et le wolof. La convention de clavier pour la codification de digraphes ou de trigraphes se résume tout simplement à la convention qui est propre à chaque caractère qui les compose. La distinction logique des digraphes et des trigraphes se fait au niveau du fichier de déclaration des poids de tri pour une langue donnée et non pas au niveau du jeu de caractères proprement dit.
| TABLEAU 6 - Digraphes et trigraphes | ||
|---|---|---|
| Code | Encodage Clavier Exemple |
Identification de digraphes et trigraphes |
| GB | GB | GB digraphe majuscule |
| gb | gb | gb digraphe minuscule |
| KP | KP | KP digraphe majuscule |
| kp | kp | kp digraphe minuscule |
| MB | MB | MB digraphe majuscule |
| mb | mb | mb digraphe minuscule |
| MV | MV | MV digraphe majuscule |
| mv | mv | mv digraphe minuscule |
| NB | NB | NB digraphe majuscule |
| nb | nb | nb digraphe minuscule |
| ND | ND | ND digraphe majuscule |
| nd | nd | nd digraphe minuscule |
| NG | NG | NG digraphe majuscule |
| ng | ng | ng digraphe minuscule |
| NGB | NGB | NGB trigraphe majuscule |
| ngb | ngb | ngb trigraphe minuscule |
| NJ | NJ | NJ digraphe majuscule |
| nj | nj | nj digraphe minuscule |
| NY | NY | NY digraphe majuscule |
| ny | ny | ny digraphe minuscule |
| NZ | NZ | NZ digraphe majuscule |
| nz | nz | nz digraphe minuscule |
| N[G | n[g | ENG+G digraphe majuscule |
| n[g | N[G | eng+g digraphe minuscule |
En plus des digraphes et trigraphes, certaines langues africaines font usage de voyelles longues. Ces voyelles longues sont marquées orthographiquement par le dédoublement de la voyelle de base. De plus, une des deux voyelles peut être accentuée en guise de marque de ton. Par exemple, le Tableau 7 énumère les voyelles longues utilisées en wolof. La convention de clavier pour la codification des voyelles longues se résume tout simplement à la convention qui est propre à chaque caractère qui les compose. La distinction logique des voyelles longues se fait au niveau du fichier de déclaration des poids de tri pour une langue donnée et non pas au niveau du jeu de caractères proprement dit.
| TABLEAU 7 - Voyelles longues | ||
|---|---|---|
| Code | Encodage Clavier Exemple |
Identification de voyelles longues |
| AA | AA | A majuscule long |
| aa | aa | a minuscule long |
| ee | ee | e minuscule long |
| e\'e | e\'e | e minuscule long (ton haut-bas) |
| e"e | e"e | e minuscule long (ton moyen-bas) |
| ii | ii | i minuscule long |
| oo | oo | o minuscule long |
| o\'o | o\'o | o minuscule long (ton haut-bas) |
| uu | uu | u minuscule long |
Pour illustrer les conventions de clavier qui ont été présentées dans la section précédente, cette section fournit des exemples concrets pour les langues africaines à traiter. Toutefois, il n'y a pas d'exemple pour l'éwondo car nous n'avons pas pu obtenir de corpus pour cette langue au cours de nos travaux. Les commandes pour convertir automatiquement un fichier translittéré vers un fichier encodé, ou encore pour recoder dans le sens contraire, sont présentées dans Bourbeau [1999] (voir le chapitre traitant du progiciel Free recode).
N ye n ka nsiirin nin da Amadu Tara la. Jamanatigi do` tun be` yen muso ko`no`nto` de tun be` a fe`. Muso ko`no`nto` be`e` ye denke` kelen kelen wolo a ye. A denke` kelen kelen be`e` fana to`go` ye ko Amadu. Amadu ninw, u ba to`go` de tun be` da u kan ka u bo` nyo`go`n na. Amadu be`e` ncinin tun ye denke` ninw be`e` la do`go`nin o de tun ye Amadu Tara ye. O tun ye jamanatigi nin ka taramuso den ye.
Woni d[on haa b[ooyi. Oya mard[o jiwo kaanaro on maayi. Suka no ton no wi?^ee Buubu Yeeb[e, on suka e nder sukaab[e aduna on alaa burd[o mo labeede. On suka yahi safaari, o woni ton haa neeb[i --- wa duub[i sappo o ko fawi! --- Yumma makko maraa b[id[d[o go?^o si wonaa kanko.
Moba\'li mo['ko[', azala\'ki\' se\' ye\'mo['ko[' na\' bilo['ko[ mi\'ngi. Moko[lo[ mo['ko[' alobi\': ti\'ka\' na\'ke[nde[ koluka mwa\vsi\'. Ake[i'. Ata\'mbo\'li\' ka\' ka\' ka\', ako\'mi\' nambo\'ka mo['ko[', aku\'ti\' wa^na\' Ntaba. Ntaba atu\'ni\' ye\v: ndeko, o\vkoke[nde[ wa\'pi? Moto alobi\': na\vkoke[nde[ koluka mwa\vsi yakoba\'la naye\'. Ntaba alobi\': zila\' nga\'i\' to\'ke[nde[ elo[ngo['.
Ma^leyo"mbo" ayeke mbe^ni^ wakua ti^ leta"a. Lo yeke zo so^ lo ye^ kua ti^ lo mi^ngi. Azo ti^ ya^ ti^ vaka so^ si" lo yeke la"ngo" daa" so^ aye^ te"ne" ti^ lo mi^ngi ngbanga ti^ nzo"ni^ duti" ti^ lo na ya^nga^da ti^ lo na a^se"wa" ti^ lo.
Ca 1965 ba leegi, Suwaahili mooy la`kk re\'e\'wum Tansani. La`kk woowu lan^uy ja`ngalee ci daara yu ndaw yi ag yu yem yi. Ci moom la n^uy jottalee xabaar yi n^uy wax ag yi n^uy bind.
Parmi les fichiers de distribution de ces progiciels de TCAO figurent les fichiers informatiques contenant un corpus des textes qui ont été fabriqués pour les langues naturelles suivantes: l'anglais, le bambara, le français, le fulfulde, le lingala, le sango, et le wolof. Le but principal de ces fichiers textuels informatisés consistait à disposer de matériel textuel bilingue afin de pouvoir tester et de valider les divers progiciels.
Le Tableau 8 contient la liste de tous ces fichiers textuels avec un commentaire pour en décrire le contenu. Ces fichiers textuels se retrouvent parmi les autres fichiers qui font partie de la distribution des progiciels de TCAO. Toutes les références indiquant l'origine de ces corpus africains figurent explicitement dans la bibliographie en annexe.
| TABLEAU 8 - Liste des fichiers textuels | |||
|---|---|---|---|
| Kilo-octets | Estampille | Fichier | Commentaire |
| 12113 | Dec 30 21:11 | xbam-stro.bra | Texte bambara encodé (chantefable) |
| 12968 | Dec 30 21:14 | xbam-stro.tbra | Texte bambara translittéré (chantefable) |
| 13759 | Dec 30 21:12 | xbamfr-stro.l1 | Bambara - Traduction française encodée |
| 14258 | Dec 30 21:29 | xbamfr-stro.tfra | Bambara - Traduction française translittérée |
| 12310 | Sep 2 20:17 | xbam.bra | Texte bambara encodé (prose) |
| 13165 | Dec 2 11:18 | xbam.tbra | Texte bambara translittéré (prose) |
| 13877 | Sep 7 16:17 | xbamfr.l1 | Bambara - Traduction française encodée |
| 14376 | Sep 7 16:20 | xbamfr.tfra | Bambara - Traduction française translittérée |
| 11102 | Sep 7 14:22 | xeng.l1 | Texte anglais encodé |
| 11180 | Dec 31 10:59 | xeng.tfra | Texte anglais translittéré |
| 12576 | Dec 2 11:46 | xengfr.l1 | Anglais - Traduction française encodée |
| 13144 | Dec 2 11:47 | xengfr.tfra | Anglais - Traduction française translittérée |
| 6774 | Dec 31 00:02 | xful.bra | Texte fulfulde encodé (FUF) |
| 7158 | Dec 31 00:04 | xful.tbra | Texte fulfulde translittéré (FUF) |
| 9765 | Dec 31 00:02 | xfulfr.l1 | Fulfulde - Traduction française encodée |
| 10210 | Dec 31 00:05 | xfulfr.tfra | Fulfulde - Traduction française translittérée |
| 2997 | Dec 2 12:18 | xlin.lin | Texte lingala encodé |
| 4047 | Dec 2 12:17 | xlin.tlin | Texte lingala translittéré |
| 3451 | Sep 29 14:07 | xlinfr.l1 | Lingala - Traduction française encodée |
| 3534 | Sep 29 14:07 | xlinfr.tfra | Lingala - Traduction française translittérée |
| 54940 | Sep 7 20:23 | xsaj.lin | Texte sango encodé (SAJ) |
| 65099 | Sep 7 20:16 | xsaj.tlin | Texte sango translittéré (SAJ) |
| 8799 | Dec 2 13:24 | xwol.lin | Texte wolof encodé |
| 9330 | Dec 2 13:19 | xwol.tlin | Texte wolof translittéré |
| 11435 | Dec 30 00:38 | xwolfr.l1 | Wolof - Traduction française encodée |
| 11807 | Dec 30 00:38 | xwolfr.tfra | Wolof - Traduction française translittérée |
Dans ce Tableau 8, notons que le texte
en bambara est une chantefable (ou un poème) dans laquelle chaque ligne
est un vers, voir les quatre fichiers suivants:
xbam-stro.bra, xbam-stro.tbra,
xbamfr-stro.l1, et xbamfr-stro.tfra. Étant
donné que nous n'avions pas à notre disposition de texte bambara en
prose, nous avons alors modifié la chantefable originale en ajoutant à
certains endroits des points de fin de phrase pour en faire un texte
continu sous forme de prose. Cela s'applique aux quatres fichiers
suivants: xbam.bra, xbam.tbra,
xbamfr.l1, et xbamfr.tfra. Tout en souhaitant
que les locuteurs du bambara n'en seront pas offusqué, considérons que
ces quatre fichiers ne sont utilisés que pour tester le bon
fonctionnement des produits TCAO pour du texte bambara qui serait écrit
en prose.
En terme de tri alphabétique, notons que le texte en
fulfulde (i.e. les fichiers xful.bra, et
xful.tbra) est du fulfulde fuuta jalon,
identifié avec le code FUF selon la nomenclature
POV. De plus, le texte en sango (i.e. les fichiers
xsaj.lin et xsaj.tlin) est du
sango riverain, identifié avec le code SAJ
selon la nomenclature POV.
Pour les progiciels Vocable et
Concorde qui effectuent internement des tris
alphabétiques, il est important de bien faire la distinction entre les
différentes langues de la famille fulfulde car ces langues ont des
alphabets orthographiques distincts, entre autres pour les digraphes et
les trigraphes. Par contre comme valeur de variable d'environnement, il
n'est pas interdit d'utiliser la valeur FUB du
fulfulde adamawa pour trier les mots du fichier
xful.bra, sauf qu'un tel usage ne respectera pas les
caractéristiques orthographiques propres au
fulfulde fuuta jalon (FUF).
|
Accueil TCAO |
Remerciements |
Un aperçu |
Licence BPI |
Distribution |
Installation |
Claviers | Pointeurs | Alibi | Concorde | Recode | Ventile | Vocable | Accueil BPI |
http://progiciels-bpi.ca |
bourbeau@progiciels-bpi.ca
Copyright © Progiciels Bourbeau Pinard inc., Montréal, 1999.
Tous droits réservés / All rights reserved.