Logo BPI
Accueil TCAO  |  Remerciements  |  Un aperçu  |  Licence BPI  |  Distribution  |  Installation  | 
Claviers  |  Pointeurs  |  Alibi  |  Concorde  |  Recode  |  Ventile  |  Vocable  |  Accueil BPI

Progiciels de TCAO - Ventile - Exemples

Table des matières - Ventile - Exemples

Résumé

Ventile est un progiciel permettant de produire des statistiques textuelles sur les éléments constitutifs d'un texte. Comme élément textuel, Ventile permet de compter le nombre de paragraphes, le nombre de phrases, le nombre de vers, le nombre de mots et le nombre de caractères par fichier. À partir de la fréquence absolue de chaque élément textuel, Ventile établit une relation entre des éléments textuels et produit des statistiques sur les rapports suivants: nombre de paragraphes par texte; nombre de phrases par paragraphe; nombre de vers par strophe; nombre de mots par phrase; nombre de mots par ligne; nombre de caractères par mot.

Comme statistiques textuelles, Ventile produit les mesures de fréquence absolue des éléments textuels, trois mesures de tendance centrale (i.e. le mode, la médiane et la moyenne arithmétique) et cinq mesures de dispersion (i.e. le minimum, le maximum, l'écart quartile, l'écart moyen et l'écart type). Les résultats statistiques sont affichés numériquement sous la forme d'un tableau et graphiquement sous la forme d'un histogramme.

Comme données d'entrée, Ventile peut dépouiller et traiter un ou plusieurs fichiers textuels à la fois. Ces fichiers peuvent être soit en format plein texte, soit en format HTML ou soit en tout format SGML. Tout comme les progiciels Vocable, Concorde et Alibi, le progiciel Ventile supporte la notion de régions textuelles à l'aide de «raffineurs internes» et de «raffineurs externes».

Les statistiques calculées par Ventile sont des «statistiques descriptives» par opposition aux «statistiques inductives» qui font appel à des notions de sondage, d'échantillonnage et d'hypothèses. Pour mieux comprendre les commandes d'appel de Ventile formulées dans les prochains exemples, consultez le Menu d'aide de Ventile.


Exemple 1 - Un compte-mots

La commande suivante demande de lire le fichier xlinfr.l1, de calculer les statistiques sur les mots de ce texte (selon le raffineur interne W) et de produire un histogramme sur une largeur de 65 colonnes (selon l'option -w65). Dans le domaine de la traduction, une telle commande est fort utile et très usuelle puisque cette commande est en fait un compte-mots.

ventile -w65  W  xlinfr.l1

Cette commande produit les résultats statistiques qui suivent.

Nombre de `W' dans chaque `Fichier'

       1    fréquence           552    valeur minimum
     552    total               552    valeur maximum

Nombre de `Octet' dans chaque `Fichier'

       1    fréquence          2830    valeur minimum
    2830    total              2830    valeur maximum

Nombre de `Octet' dans chaque `W'  [* = 10.22]

     552    fréquence             1    valeur minimum
    2830    total                52    valeur maximum
       1    mode                  1.98 écart moyen
       4    médiane               0.00 écart quartile
       5.13 moyenne               3.63 écart type

        .______________________________________________________.
   1-8  |***********************************************<      |
   9-16 |******<                                               |
  17-24 |<                                                     |
  25-32 |                                                      |
  33-40 |                                                      |
  41-48 |                                                      |
  49-56 |<                                                     |
        `______________________________________________________'

Pour tout calcul statistique, Ventile produit deux blocs d'information. Le premier bloc présente numériquement les résultats tandis que le deuxième bloc présente graphiquement ces résultats à l'aide d'un histogramme. Comme premier bloc, on retrouve un tableau subdivisé en groupes de lignes et en deux colonnes. Les premiers groupes de lignes présentent successivement les valeurs de chacune des variables observées tandis que le dernier groupe de lignes présente un rapport (ou une relation) entre deux variables. En terme de colonnes, on retrouve dans la première colonne de ce tableau la valeur de fréquence des variables observées ainsi que la valeur des trois mesures de tendance centrale et, dans la deuxième colonne, figure la valeur des cinq mesures de dispersion.

Dans la première colonne de ce tableau de résultats, la variable Fichier a une fréquence de 1 puisque la commande d'appel ne fournit qu'un seul fichier en entrée. Ce fichier xlinfr.l1 contient ainsi un total de 552 mots (voir la valeur de la variable W) et un total de 2830 octets (voir la valeur de la variable Octet). En moyenne, il y a 5,13 octets par mot, la valeur de la médiane pour un mot est de 4 octets, et la valeur modale pour un mot est de 1 octet.

La commande plus haut demande à Ventile de produire un histogramme sur une largeur de 65 colonnes (option -w65). En l'absence de l'option -w, la largueur par défaut pour un histogramme est de 79 colonnes. En l'absence de l'option -h, Ventile détermine automatiquement, en fonction de la distribution des données, le nombre de pigeonniers à créer ainsi que la valeur des intervalles pour chaque pigeonnier. Par exemple à la gauche de l'histogramme plus haut, on retrouve une légende comptant sept pigeonniers dont chacun est représenté respectivement par les sept intervalles suivants: 1-8; 9-16; 17-24; 25-32; 33-40; 41-48; 49-56. Dans les pigeonniers, les résultats obtenus sont représentés par des symboles * et la valeur unitaire pour chaque astérisque * est indiquée entre crochets, en haut de l'histogramme, au bout de la ligne Nombre de `Octet' dans chaque `W'.

Dans un histogramme, le crochet en angle < a une signification particulière. Un symbole < après un symbole * marque tout simplement la fin des valeurs. Un symbole < au tout début d'un pigeonnier indique la présence d'une valeur qui est plus grande que zéro mais qui est toutefois plus petite que la valeur unitaire d'un astérisque *. Si un pigeonnier ne contient pas de symbole < au début cela signifie qu'il est vide, c'est-à-dire la valeur zéro.


Exemple 2 - Compte-mots sur un ensemble de fichiers

La commande suivante permet de démontrer que Ventile peut traiter et calculer plusieurs fichiers d'entrée à la fois. Cette commande demande de produire des statistiques sur les mots (raffineur W) à partir des cinq textes en français des fichiers d'entrée suivants: xbamfr.l1; xengfr.l1; xfulfr.l1; xlinfr.l1; xwolfr.l1.

ventile -w65 -h10 W xbamfr.l1 xengfr.l1 xfulfr.l1 xlinfr.l1 xwolfr.l1

Cette commande produit les résultats statistiques qui suivent.

Nombre de `W' dans chaque `Fichier'  [* = 0.10]

       5    fréquence           552    valeur minimum
    8235    total              2330    valeur maximum
     552    mode                438.00 écart moyen
    1780    médiane               0.00 écart quartile
    1647.00 moyenne             591.56 écart type

            .__________________________________________________.
   552-729  |**********<                                       |
   730-907  |                                                  |
   908-1085 |                                                  |
  1086-1263 |                                                  |
  1264-1441 |                                                  |
  1442-1619 |                                                  |
  1620-1797 |********************<                             |
  1798-1975 |**********<                                       |
  1976-2153 |                                                  |
  2154-2331 |**********<                                       |
            `__________________________________________________'

Nombre de `Octet' dans chaque `Fichier'  [* = 0.10]

       5    fréquence          2830    valeur minimum
   42245    total             11355    valeur maximum
    2830    mode               2443.20 écart moyen
    9496    médiane               0.00 écart quartile
    8449.00 moyenne            3033.06 écart type

              .________________________________________________.
   2830-3682  |*********<                                      |
   3683-4535  |                                                |
   4536-5388  |                                                |
   5389-6241  |                                                |
   6242-7094  |                                                |
   7095-7947  |                                                |
   7948-8800  |*********<                                      |
   8801-9653  |*********<                                      |
   9654-10506 |                                                |
  10507-11359 |*******************<                            |
              `________________________________________________'

Nombre de `Octet' dans chaque `W'  [* = 152.50]

    8235    fréquence             1    valeur minimum
   42245    total                52    valeur maximum
       1    mode                  2.07 écart moyen
       4    médiane               0.00 écart quartile
       5.13 moyenne               3.23 écart type

        .______________________________________________________.
   1-6  |**************************************<               |
   7-12 |**************<                                       |
  13-18 |<                                                     |
  19-24 |<                                                     |
  25-30 |<                                                     |
  31-36 |                                                      |
  37-42 |                                                      |
  43-48 |                                                      |
  49-54 |<                                                     |
        `______________________________________________________'

Dans ces résultats, on retrouve trois ensembles de statistiques: le nombre de mots `W' par `Fichier'; le nombre d'octets par `Fichier'; et le nombre d'octets par mot `W'. Par exemple, on peut observer qu'il y a une fréquence de 5 fichiers contenant un total de 8235 mots. Le fichier le plus court contient 552 mots (i.e. valeur minimum) tandis que le fichier le plus long contient 2330 mots (i.e. valeur maximum). Ces cinq fichiers contiennent en moyenne 1647 mots. La longueur moyenne de ces 8235 mots est de 5,13 octets par mot.


Exemple 3 - Relation paragraphes / phrases / mots

La commande suivante utilise une liste de raffineurs (P,S,W) pour demander de produire des statistiques sur les mots (raffineur W), sur les phrases (raffineur S) et sur les paragraphes (raffineur P) du texte anglais contenu dans le fichier d'entrée xeng.l1. Rappelons que pour ces progiciels de TCAO une liste de raffineurs a un sens hiérarchique: les mots dans une phrase, les phrases dans un paragraphe, et les paragraphes dans un texte.

ventile -h10 -w60  P,S,W   xeng.l1

Cette commande demande en plus de produire les histogrammes avec un maximum de 10 pigeonniers (option -h10). Avec l'option -h suivi d'un nombre entier, l'utilisateur fixe ainsi le nombre de pigeonniers qu'il désire obtenir dans un histogramme. Cette option -h produit un histogramme de dimension variable verticalement tout en ayant un effet conséquent sur la redistribution des astérisques. De son côté, l'option -w permet elle aussi de produire un histogramme de dimension variable. Avec cette option, la dimension de l'histogramme est variable horizontalement tout en ayant elle aussi un effet conséquent sur la redistribution proportionnelle des astérisques. Cette commande produit les résultats statistiques qui suivent.

Nombre de `P' dans chaque `Fichier'

       1    fréquence            36    valeur minimum
      36    total                36    valeur maximum

Nombre de `S' dans chaque `Fichier'

       1    fréquence            83    valeur minimum
      83    total                83    valeur maximum

Nombre de `S' dans chaque `P'  [* = 0.71]

      36    fréquence             1    valeur minimum
      83    total                 8    valeur maximum
       1    mode                  1.14 écart moyen
       1    médiane               0.00 écart quartile
       2.31 moyenne               1.52 écart type

      .___________________________________________________.
  1-1 |*****************************<                     |
  2-2 |****<                                              |
  3-3 |*****<                                             |
  4-4 |*<                                                 |
  5-5 |*******<                                           |
  6-6 |                                                   |
  7-7 |*<                                                 |
  8-8 |*<                                                 |
      `___________________________________________________'

Nombre de `W' dans chaque `Fichier'

       1    fréquence          1697    valeur minimum
    1697    total              1697    valeur maximum

Nombre de `W' dans chaque `P'  [* = 0.77]

      36    fréquence             1    valeur minimum
    1697    total               189    valeur maximum
       1    mode                 45.31 écart moyen
      31    médiane               0.00 écart quartile
      47.14 moyenne              52.85 écart type

          ._______________________________________________.
    1-19  |**********************<                        |
   20-38  |******<                                        |
   39-57  |*<                                             |
   58-76  |***<                                           |
   77-95  |*<                                             |
   96-114 |*****<                                         |
  115-133 |***<                                           |
  134-152 |                                               |
  153-171 |*<                                             |
  172-190 |*<                                             |
          `_______________________________________________'

Nombre de `W' dans chaque `S'  [* = 1.77]

      83    fréquence             1    valeur minimum
    1697    total               147    valeur maximum
       1    mode                 15.67 écart moyen
      13    médiane               0.00 écart quartile
      20.45 moyenne              26.06 écart type

          ._______________________________________________.
    1-15  |***************************<                   |
   16-30  |*********<                                     |
   31-45  |*****<                                         |
   46-60  |*<                                             |
   61-75  |<                                              |
   76-90  |                                               |
   91-105 |                                               |
  106-120 |*<                                             |
  121-135 |<                                              |
  136-150 |<                                              |
          `_______________________________________________'

Nombre de `Octet' dans chaque `Fichier'

       1    fréquence          9059    valeur minimum
    9059    total              9059    valeur maximum

Nombre de `Octet' dans chaque `P'  [* = 0.80]

      36    fréquence             5    valeur minimum
    9059    total              1060    valeur maximum
       5    mode                240.17 écart moyen
     145    médiane               0.00 écart quartile
     251.64 moyenne             295.89 écart type

            ._____________________________________________.
     5-110  |*********************<                       |
   111-216  |******<                                      |
   217-322  |**<                                          |
   323-428  |**<                                          |
   429-534  |******<                                      |
   535-640  |                                             |
   641-746  |*<                                           |
   747-852  |**<                                          |
   853-958  |                                             |
   959-1064 |**<                                          |
            `_____________________________________________'

Nombre de `Octet' dans chaque `S'  [* = 1.77]

      83    fréquence             5    valeur minimum
    9059    total               954    valeur maximum
       5    mode                 93.25 écart moyen
      59    médiane               0.00 écart quartile
     109.14 moyenne             167.78 écart type

          ._______________________________________________.
    5-99  |********************************<              |
  100-194 |*********<                                     |
  195-289 |**<                                            |
  290-384 |                                               |
  385-479 |                                               |
  480-574 |                                               |
  575-669 |                                               |
  670-764 |*<                                             |
  765-859 |<                                              |
  860-954 |<                                              |
          `_______________________________________________'

Nombre de `Octet' dans chaque `W'  [* = 34.63]

    1697    fréquence             1    valeur minimum
    9059    total                24    valeur maximum
       1    mode                  2.13 écart moyen
       4    médiane               0.00 écart quartile
       5.34 moyenne               2.71 écart type

        ._________________________________________________.
   1-3  |******************<                              |
   4-6  |**************<                                  |
   7-9  |**********<                                      |
  10-12 |****<                                            |
  13-15 |<                                                |
  16-18 |<                                                |
  19-21 |<                                                |
  22-24 |<                                                |
        `_________________________________________________'

Dans ces derniers résultats, on retrouve six ensembles de statistiques. Parmi ces ensembles, on peut observer par exemple que ce texte anglais xeng.l1 contient un total de 36 paragraphes, de 83 phrases, de 1697 mots et de 9059 octets. Il y a en moyenne 2,31 phrases par paragraphe et 47,14 mots par paragraphe. De plus, comme longueur de phrase, il y a en moyenne 20,45 mots par phrase et les mots ont en moyenne une longuer de 5,34 octets. Le mot le plus long contient 24 octets.


Exemple 4 - Compte-mots HTML

Dans les exemples précédents, Ventile avait à traiter des fichiers d'entrée en format plein texte. Dans le prochain exemple, Ventile traite un fichier d'entrée en format HTML. Ce fichier resums.html est formellement conforme à la grammaire DTD de la norme HTML 3.2.

Les fichiers sgmlisés contiennent des balises qui peuvent être exploitées comme région textuelle. Dans notre terminologie TCAO, le terme raffineur externe est utilisé pour désigner les balises SGML contenues dans un fichier d'entrée. Cet exemple de fichier en HTML nous permet d'expliquer plus précisément le calcul des octets et des caractères que Ventile effectue lors d'une commande d'appel. Un fichier est constitué d'un ensemble d'octets et parmi ces octets certains font partie des caractères résiduels tandis que d'autres sont des caractères comptabilisés en fonction de la commande d'appel. Par exemple dans le calcul d'un élément mot, le caractère espace (ou le blanc) fait partie des caractères du paragraphe mais il ne fait pas partie du mot proprement dit. Par rapport aux caractères d'un mot, le blanc est un caractère résiduel. Lorsqu'on examine les résultats statistiques sur les octets, il faut se rappeler cette distinction entre un caractère comptabilisé et un caractère résiduel par rapport à la taille totale d'un fichier en kilo-octets.

La commande suivante utilise la liste de raffineurs (title,W) pour spécifier les régions textuelles désirées. Le raffineur externe title désigne la balise d'ouverture <title> et la balise de fermeture </title> propre au langage de balisage HTML. Cette commande demande alors à Ventile de ne comptabiliser que les mots (raffineur interne W qui se trouvent entre ces deux balises HTML. De plus, cette commande demande de ne pas produire d'histogramme à cause de l'option -h0.

ventile -h0 -w60  title,W  resums.html

Cette commande produit les résultats statistiques qui suivent.

Nombre de `title' dans chaque `Fichier'

       1    fréquence             1    valeur minimum
       1    total                 1    valeur maximum

Nombre de `W' dans chaque `Fichier'

       1    fréquence            26    valeur minimum
      26    total                26    valeur maximum

Nombre de `W' dans chaque `title'

       1    fréquence            26    valeur minimum
      26    total                26    valeur maximum

Nombre de `Octet' dans chaque `Fichier'

       1    fréquence           143    valeur minimum
     143    total               143    valeur maximum

Nombre de `Octet' dans chaque `title'

       1    fréquence           143    valeur minimum
     143    total               143    valeur maximum

Nombre de `Octet' dans chaque `W'

      26    fréquence             1    valeur minimum
     143    total                13    valeur maximum
       1    mode                  2.46 écart moyen
       5    médiane               0.00 écart quartile
       5.50 moyenne               3.26 écart type

Les résultats de cette commande indique que ce fichier resums.html contient 1 seul titre et que ce titre contient un total de 26 mots. De plus, les statistiques indiquent que ce fichier ne contient qu'un total de 143 octets. En fait, Ventile n'a pas comptabilisé dans ce cas-ci les octets qui se trouvaient à l'extérieur du mot et ceux à l'extérieur de la balise title car ces octets ont été considérés comme étant des caractères résiduels.

Ventile présuppose que l'utilisateur connaît les étiquettes et le sens des balises HTML afin qu'il puisse formuler les raffineurs externes de manière pertinente et qu'il puisse interpréter adéquatement les statistiques produites.


ANNEXE 1 - Menu d'aide Ventile

«Ventile» produit des statistiques textuelles sur les éléments
constitutifs d'un texte.

Usage: ventile [OPTION]... SCAN-SPEC[,SCAN-SPEC]...  FICHIER...

Options:
  {-}{-}copyright  afficher les conditions de copie, puis terminer
  {-}{-}help       fournir ce message d'aide, puis terminer
  {-}{-}version    identifier le programme, puis terminer

Options de sortie:
  -v         expliquer en mode bavard ce qui se passe
  -d         sortir de l'information interne pour fin de déverminage
  -w WIDTH   nombre de colonnes WIDTH comme largeur d'histogramme
  -h CELLS   nombre de pigeonniers CELLS, 0 pour aucun histogramme

Chaque SCAN-SPEC est DEMARREUR[/TERMINATEUR].
Tant DEMARREUR que TERMINATEUR sont CHERCHER[+CHERCHER]... et
chaque CHERCHER est soit une balise SGML ou soit un des raffineurs
internes suivants:

  P   paragraphe délimité par une ou plusieurs lignes vides
  S   phrase terminée par .?! et possiblement ])}"» et suivie de 2 blancs
  V   vers terminé par une ou plusieurs fins de ligne
  W   mot délimité par un blanc (caractère espace)
  C   caractère unique (énergivore en CPU)
  T   fournir une balise démarreur/terminateur avant et après le textuel
  F   reconnaître l'espace français après une ponctuation forte
Accueil TCAO  |  Remerciements  |  Un aperçu  |  Licence BPI  |  Distribution  |  Installation  | 
Claviers  |  Pointeurs  |  Alibi  |  Concorde  |  Recode  |  Ventile  |  Vocable  |  Accueil BPI

http://progiciels-bpi.ca  |  bourbeau@progiciels-bpi.ca
Copyright ©  Progiciels Bourbeau Pinard inc., Montréal, 1999. Tous droits réservés / All rights reserved.