| |
|
Accueil TCAO |
Remerciements |
Un aperçu |
Licence BPI |
Distribution |
Installation |
Claviers | Pointeurs | Alibi | Concorde | Recode | Ventile | Vocable | Accueil BPI |
Ventile est un progiciel permettant de produire des statistiques textuelles sur les éléments constitutifs d'un texte. Comme élément textuel, Ventile permet de compter le nombre de paragraphes, le nombre de phrases, le nombre de vers, le nombre de mots et le nombre de caractères par fichier. À partir de la fréquence absolue de chaque élément textuel, Ventile établit une relation entre des éléments textuels et produit des statistiques sur les rapports suivants: nombre de paragraphes par texte; nombre de phrases par paragraphe; nombre de vers par strophe; nombre de mots par phrase; nombre de mots par ligne; nombre de caractères par mot.
Comme statistiques textuelles, Ventile produit les mesures de fréquence absolue des éléments textuels, trois mesures de tendance centrale (i.e. le mode, la médiane et la moyenne arithmétique) et cinq mesures de dispersion (i.e. le minimum, le maximum, l'écart quartile, l'écart moyen et l'écart type). Les résultats statistiques sont affichés numériquement sous la forme d'un tableau et graphiquement sous la forme d'un histogramme.
Comme données d'entrée, Ventile peut dépouiller et traiter un ou plusieurs fichiers textuels à la fois. Ces fichiers peuvent être soit en format plein texte, soit en format HTML ou soit en tout format SGML. Tout comme les progiciels Vocable, Concorde et Alibi, le progiciel Ventile supporte la notion de régions textuelles à l'aide de «raffineurs internes» et de «raffineurs externes».
Les statistiques calculées par Ventile sont des «statistiques descriptives» par opposition aux «statistiques inductives» qui font appel à des notions de sondage, d'échantillonnage et d'hypothèses. Pour mieux comprendre les commandes d'appel de Ventile formulées dans les prochains exemples, consultez le Menu d'aide de Ventile.
La commande suivante demande de lire le fichier
xlinfr.l1, de calculer les statistiques sur les mots de ce
texte (selon le raffineur interne W) et de produire un
histogramme sur une largeur de 65 colonnes (selon l'option
-w65). Dans le domaine de la traduction, une telle commande
est fort utile et très usuelle puisque cette commande est en fait un
compte-mots.
ventile -w65 W xlinfr.l1
Cette commande produit les résultats statistiques qui suivent.
Nombre de `W' dans chaque `Fichier'
1 fréquence 552 valeur minimum
552 total 552 valeur maximum
Nombre de `Octet' dans chaque `Fichier'
1 fréquence 2830 valeur minimum
2830 total 2830 valeur maximum
Nombre de `Octet' dans chaque `W' [* = 10.22]
552 fréquence 1 valeur minimum
2830 total 52 valeur maximum
1 mode 1.98 écart moyen
4 médiane 0.00 écart quartile
5.13 moyenne 3.63 écart type
.______________________________________________________.
1-8 |***********************************************< |
9-16 |******< |
17-24 |< |
25-32 | |
33-40 | |
41-48 | |
49-56 |< |
`______________________________________________________'
Pour tout calcul statistique, Ventile produit deux blocs d'information. Le premier bloc présente numériquement les résultats tandis que le deuxième bloc présente graphiquement ces résultats à l'aide d'un histogramme. Comme premier bloc, on retrouve un tableau subdivisé en groupes de lignes et en deux colonnes. Les premiers groupes de lignes présentent successivement les valeurs de chacune des variables observées tandis que le dernier groupe de lignes présente un rapport (ou une relation) entre deux variables. En terme de colonnes, on retrouve dans la première colonne de ce tableau la valeur de fréquence des variables observées ainsi que la valeur des trois mesures de tendance centrale et, dans la deuxième colonne, figure la valeur des cinq mesures de dispersion.
Dans la première colonne de ce tableau de résultats, la
variable Fichier a une fréquence de 1
puisque la commande d'appel ne fournit qu'un seul fichier en entrée. Ce
fichier xlinfr.l1 contient ainsi un total de
552 mots (voir la valeur de la variable W)
et un total de 2830 octets (voir la valeur de la
variable Octet). En moyenne, il y a 5,13
octets par mot, la valeur de la médiane pour un mot est de
4 octets, et la valeur modale pour un mot est de
1 octet.
La commande plus haut demande à Ventile
de produire un histogramme sur une largeur de 65 colonnes (option
-w65). En l'absence de l'option -w, la
largueur par défaut pour un histogramme est de 79 colonnes. En l'absence
de l'option -h, Ventile détermine
automatiquement, en fonction de la distribution des données, le nombre de
pigeonniers à créer ainsi que la valeur des intervalles pour chaque
pigeonnier. Par exemple à la gauche de l'histogramme plus haut, on
retrouve une légende comptant sept pigeonniers dont chacun est représenté
respectivement par les sept intervalles suivants: 1-8;
9-16; 17-24; 25-32;
33-40; 41-48; 49-56.
Dans les pigeonniers, les résultats obtenus sont représentés par des
symboles * et la valeur unitaire pour chaque astérisque
* est indiquée entre crochets, en haut de l'histogramme,
au bout de la ligne Nombre de `Octet' dans chaque `W'.
Dans un histogramme, le crochet en angle < a une signification particulière. Un symbole < après un symbole * marque tout simplement la fin des valeurs. Un symbole < au tout début d'un pigeonnier indique la présence d'une valeur qui est plus grande que zéro mais qui est toutefois plus petite que la valeur unitaire d'un astérisque *. Si un pigeonnier ne contient pas de symbole < au début cela signifie qu'il est vide, c'est-à-dire la valeur zéro.
La commande suivante permet de démontrer que
Ventile peut traiter et calculer plusieurs fichiers
d'entrée à la fois. Cette commande demande de produire des statistiques
sur les mots (raffineur W) à partir des cinq textes en
français des fichiers d'entrée suivants: xbamfr.l1;
xengfr.l1; xfulfr.l1;
xlinfr.l1; xwolfr.l1.
ventile -w65 -h10 W xbamfr.l1 xengfr.l1 xfulfr.l1 xlinfr.l1 xwolfr.l1
Cette commande produit les résultats statistiques qui suivent.
Nombre de `W' dans chaque `Fichier' [* = 0.10]
5 fréquence 552 valeur minimum
8235 total 2330 valeur maximum
552 mode 438.00 écart moyen
1780 médiane 0.00 écart quartile
1647.00 moyenne 591.56 écart type
.__________________________________________________.
552-729 |**********< |
730-907 | |
908-1085 | |
1086-1263 | |
1264-1441 | |
1442-1619 | |
1620-1797 |********************< |
1798-1975 |**********< |
1976-2153 | |
2154-2331 |**********< |
`__________________________________________________'
Nombre de `Octet' dans chaque `Fichier' [* = 0.10]
5 fréquence 2830 valeur minimum
42245 total 11355 valeur maximum
2830 mode 2443.20 écart moyen
9496 médiane 0.00 écart quartile
8449.00 moyenne 3033.06 écart type
.________________________________________________.
2830-3682 |*********< |
3683-4535 | |
4536-5388 | |
5389-6241 | |
6242-7094 | |
7095-7947 | |
7948-8800 |*********< |
8801-9653 |*********< |
9654-10506 | |
10507-11359 |*******************< |
`________________________________________________'
Nombre de `Octet' dans chaque `W' [* = 152.50]
8235 fréquence 1 valeur minimum
42245 total 52 valeur maximum
1 mode 2.07 écart moyen
4 médiane 0.00 écart quartile
5.13 moyenne 3.23 écart type
.______________________________________________________.
1-6 |**************************************< |
7-12 |**************< |
13-18 |< |
19-24 |< |
25-30 |< |
31-36 | |
37-42 | |
43-48 | |
49-54 |< |
`______________________________________________________'
Dans ces résultats, on retrouve trois ensembles de statistiques: le nombre de mots `W' par `Fichier'; le nombre d'octets par `Fichier'; et le nombre d'octets par mot `W'. Par exemple, on peut observer qu'il y a une fréquence de 5 fichiers contenant un total de 8235 mots. Le fichier le plus court contient 552 mots (i.e. valeur minimum) tandis que le fichier le plus long contient 2330 mots (i.e. valeur maximum). Ces cinq fichiers contiennent en moyenne 1647 mots. La longueur moyenne de ces 8235 mots est de 5,13 octets par mot.
La commande suivante utilise une liste de raffineurs
(P,S,W) pour demander de produire des statistiques sur les
mots (raffineur W), sur les phrases (raffineur
S) et sur les paragraphes (raffineur P)
du texte anglais contenu dans le fichier d'entrée xeng.l1.
Rappelons que pour ces progiciels de TCAO une liste de raffineurs a un
sens hiérarchique: les mots dans une phrase, les phrases dans un
paragraphe, et les paragraphes dans un texte.
ventile -h10 -w60 P,S,W xeng.l1
Cette commande demande en plus de produire les
histogrammes avec un maximum de 10 pigeonniers (option
-h10). Avec l'option -h suivi d'un nombre
entier, l'utilisateur fixe ainsi le nombre de pigeonniers qu'il désire
obtenir dans un histogramme. Cette option -h produit un
histogramme de dimension variable verticalement tout en ayant un effet
conséquent sur la redistribution des astérisques. De son côté, l'option
-w permet elle aussi de produire un histogramme de
dimension variable. Avec cette option, la dimension de l'histogramme est
variable horizontalement tout en ayant elle aussi un effet conséquent sur
la redistribution proportionnelle des astérisques. Cette commande
produit les résultats statistiques qui suivent.
Nombre de `P' dans chaque `Fichier'
1 fréquence 36 valeur minimum
36 total 36 valeur maximum
Nombre de `S' dans chaque `Fichier'
1 fréquence 83 valeur minimum
83 total 83 valeur maximum
Nombre de `S' dans chaque `P' [* = 0.71]
36 fréquence 1 valeur minimum
83 total 8 valeur maximum
1 mode 1.14 écart moyen
1 médiane 0.00 écart quartile
2.31 moyenne 1.52 écart type
.___________________________________________________.
1-1 |*****************************< |
2-2 |****< |
3-3 |*****< |
4-4 |*< |
5-5 |*******< |
6-6 | |
7-7 |*< |
8-8 |*< |
`___________________________________________________'
Nombre de `W' dans chaque `Fichier'
1 fréquence 1697 valeur minimum
1697 total 1697 valeur maximum
Nombre de `W' dans chaque `P' [* = 0.77]
36 fréquence 1 valeur minimum
1697 total 189 valeur maximum
1 mode 45.31 écart moyen
31 médiane 0.00 écart quartile
47.14 moyenne 52.85 écart type
._______________________________________________.
1-19 |**********************< |
20-38 |******< |
39-57 |*< |
58-76 |***< |
77-95 |*< |
96-114 |*****< |
115-133 |***< |
134-152 | |
153-171 |*< |
172-190 |*< |
`_______________________________________________'
Nombre de `W' dans chaque `S' [* = 1.77]
83 fréquence 1 valeur minimum
1697 total 147 valeur maximum
1 mode 15.67 écart moyen
13 médiane 0.00 écart quartile
20.45 moyenne 26.06 écart type
._______________________________________________.
1-15 |***************************< |
16-30 |*********< |
31-45 |*****< |
46-60 |*< |
61-75 |< |
76-90 | |
91-105 | |
106-120 |*< |
121-135 |< |
136-150 |< |
`_______________________________________________'
Nombre de `Octet' dans chaque `Fichier'
1 fréquence 9059 valeur minimum
9059 total 9059 valeur maximum
Nombre de `Octet' dans chaque `P' [* = 0.80]
36 fréquence 5 valeur minimum
9059 total 1060 valeur maximum
5 mode 240.17 écart moyen
145 médiane 0.00 écart quartile
251.64 moyenne 295.89 écart type
._____________________________________________.
5-110 |*********************< |
111-216 |******< |
217-322 |**< |
323-428 |**< |
429-534 |******< |
535-640 | |
641-746 |*< |
747-852 |**< |
853-958 | |
959-1064 |**< |
`_____________________________________________'
Nombre de `Octet' dans chaque `S' [* = 1.77]
83 fréquence 5 valeur minimum
9059 total 954 valeur maximum
5 mode 93.25 écart moyen
59 médiane 0.00 écart quartile
109.14 moyenne 167.78 écart type
._______________________________________________.
5-99 |********************************< |
100-194 |*********< |
195-289 |**< |
290-384 | |
385-479 | |
480-574 | |
575-669 | |
670-764 |*< |
765-859 |< |
860-954 |< |
`_______________________________________________'
Nombre de `Octet' dans chaque `W' [* = 34.63]
1697 fréquence 1 valeur minimum
9059 total 24 valeur maximum
1 mode 2.13 écart moyen
4 médiane 0.00 écart quartile
5.34 moyenne 2.71 écart type
._________________________________________________.
1-3 |******************< |
4-6 |**************< |
7-9 |**********< |
10-12 |****< |
13-15 |< |
16-18 |< |
19-21 |< |
22-24 |< |
`_________________________________________________'
Dans ces derniers résultats, on retrouve six ensembles de
statistiques. Parmi ces ensembles, on peut observer par exemple que ce
texte anglais xeng.l1 contient un total de
36 paragraphes, de 83 phrases, de
1697 mots et de 9059 octets. Il y a en
moyenne 2,31 phrases par paragraphe et
47,14 mots par paragraphe. De plus, comme longueur de
phrase, il y a en moyenne 20,45 mots par phrase et les
mots ont en moyenne une longuer de 5,34 octets. Le mot
le plus long contient 24 octets.
Dans les exemples précédents, Ventile
avait à traiter des fichiers d'entrée en format plein texte. Dans le
prochain exemple, Ventile traite un fichier d'entrée en
format HTML. Ce fichier resums.html est
formellement conforme à la grammaire DTD de la norme
HTML 3.2.
Les fichiers sgmlisés contiennent des balises qui peuvent
être exploitées comme région textuelle. Dans notre terminologie TCAO, le
terme raffineur externe est utilisé pour désigner les
balises SGML contenues dans un fichier d'entrée. Cet
exemple de fichier en HTML nous permet d'expliquer plus
précisément le calcul des octets et des caractères que
Ventile effectue lors d'une commande d'appel. Un
fichier est constitué d'un ensemble d'octets et parmi ces octets certains
font partie des caractères résiduels tandis que d'autres
sont des caractères comptabilisés en fonction de la
commande d'appel. Par exemple dans le calcul d'un élément
mot, le caractère espace (ou le blanc)
fait partie des caractères du paragraphe mais il ne fait pas partie du
mot proprement dit. Par rapport aux caractères d'un mot, le blanc est un
caractère résiduel. Lorsqu'on examine les résultats statistiques sur les
octets, il faut se rappeler cette distinction entre un caractère
comptabilisé et un caractère résiduel par rapport à la taille totale d'un
fichier en kilo-octets.
La commande suivante utilise la liste de raffineurs
(title,W) pour spécifier les régions textuelles désirées.
Le raffineur externe title désigne la balise d'ouverture
<title> et la balise de fermeture </title>
propre au langage de balisage HTML. Cette commande
demande alors à Ventile de ne comptabiliser que les mots
(raffineur interne W qui se trouvent entre ces deux balises
HTML. De plus, cette commande demande de ne pas
produire d'histogramme à cause de l'option -h0.
ventile -h0 -w60 title,W resums.html
Cette commande produit les résultats statistiques qui suivent.
Nombre de `title' dans chaque `Fichier'
1 fréquence 1 valeur minimum
1 total 1 valeur maximum
Nombre de `W' dans chaque `Fichier'
1 fréquence 26 valeur minimum
26 total 26 valeur maximum
Nombre de `W' dans chaque `title'
1 fréquence 26 valeur minimum
26 total 26 valeur maximum
Nombre de `Octet' dans chaque `Fichier'
1 fréquence 143 valeur minimum
143 total 143 valeur maximum
Nombre de `Octet' dans chaque `title'
1 fréquence 143 valeur minimum
143 total 143 valeur maximum
Nombre de `Octet' dans chaque `W'
26 fréquence 1 valeur minimum
143 total 13 valeur maximum
1 mode 2.46 écart moyen
5 médiane 0.00 écart quartile
5.50 moyenne 3.26 écart type
Les résultats de cette commande indique que ce fichier
resums.html contient 1 seul titre et que ce
titre contient un total de 26 mots. De plus, les
statistiques indiquent que ce fichier ne contient qu'un total de
143 octets. En fait, Ventile n'a pas
comptabilisé dans ce cas-ci les octets qui se trouvaient à l'extérieur du
mot et ceux à l'extérieur de la balise title car ces
octets ont été considérés comme étant des caractères résiduels.
Ventile présuppose que l'utilisateur connaît les étiquettes et le sens des balises HTML afin qu'il puisse formuler les raffineurs externes de manière pertinente et qu'il puisse interpréter adéquatement les statistiques produites.
«Ventile» produit des statistiques textuelles sur les éléments
constitutifs d'un texte.
Usage: ventile [OPTION]... SCAN-SPEC[,SCAN-SPEC]... FICHIER...
Options:
{-}{-}copyright afficher les conditions de copie, puis terminer
{-}{-}help fournir ce message d'aide, puis terminer
{-}{-}version identifier le programme, puis terminer
Options de sortie:
-v expliquer en mode bavard ce qui se passe
-d sortir de l'information interne pour fin de déverminage
-w WIDTH nombre de colonnes WIDTH comme largeur d'histogramme
-h CELLS nombre de pigeonniers CELLS, 0 pour aucun histogramme
Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:
P paragraphe délimité par une ou plusieurs lignes vides
S phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
V vers terminé par une ou plusieurs fins de ligne
W mot délimité par un blanc (caractère espace)
C caractère unique (énergivore en CPU)
T fournir une balise démarreur/terminateur avant et après le textuel
F reconnaître l'espace français après une ponctuation forte
|
Accueil TCAO |
Remerciements |
Un aperçu |
Licence BPI |
Distribution |
Installation |
Claviers | Pointeurs | Alibi | Concorde | Recode | Ventile | Vocable | Accueil BPI |
http://progiciels-bpi.ca |
bourbeau@progiciels-bpi.ca
Copyright © Progiciels Bourbeau Pinard inc., Montréal, 1999.
Tous droits réservés / All rights reserved.