Objets isolés - espèces rares

Effets sur une ordination:

- augmentation de l'inertie totale

- distorsion de l'ordination

- parfois génération d'axes "aberrants"

Or, bien que l'AFC ou l'ACC soient très sensibles aux cas particuliers, on se sert généralement de ces techniques pour interpréter des grandes tendances.

Objets isolés (uniques, aberrants...)

Ces objets ne constituent pas une classe homogène! Il peut y en avoir un seul ou un petit nombre dans un échantillon. S'il y en a plusieurs, ils peuvent être homogènes entre eux ou hétérogènes.

Il faut donc chercher la raison de leur différence avec la majorité des objets:

- prélèvement(s) détérioré(s);

- erreur de comptage ou d'analyse;

- pas de problème apparent, mais constitution différente.

Dans ce dernier cas, chercher la cause de la différence dans ce qu'on sait de ces objets: présence d'espèces indicatrices de conditions écologiques différentes de celles des autres objets de l'échantillon, rareté d'une ou plusieurs espèces qui sont abondantes ailleurs, localisation spatiale marginale, valeur exceptionnelle d'une ou plusieurs variables explicatives externes, proximité d'une source potentielle de perturbations...

Lorsqu'on a compris les causes de l'isolement du ou des objets, on le ou les retire des données et on refait l'analyse. En effet, la première analyse a permis de situer ces objets par rapport aux autres, mais leur présence a probablement altéré l'ordination du reste de l'échantillon.

Espèces rares

Les espèces qui ne sont présentes que dans un ou deux objets (prélèvements, relevés) induisent l'apparition d'un grand nombre de zéros dans la matrice de données, ainsi que l'augmentation parfois très forte de son inertie totale.

La question qui se pose ici n'est pas celle de l'importance écologique des espèces rares, mais celle de leur influence sur une ordination.

Les deux cas les plus courants sont:

- espèces indicatrices de conditions particulières: regroupées dans un ou quelques prélèvements partageant une caractéristique qui les distingue des autres; abondance parfois forte;

- espèces accidentelles: espèces de passage, sans lien apparent avec le milieu où elles ont été capturées; dispersées au hasard dans l'échantillon, jamais en nombres élevés.

La distinction entre les deux cas ci-dessus est souvent malaisée, et dépend surtout de la connaissance qu'on a de l'écologie des organismes qu'on étudie.

Le cas le plus simple est celui où une ou quelques espèces rares sont la signature d'un sous-groupe de prélèvements isolés, qu'on peut alors retirer de l'analyse.

Autrement, on peut procéder par étapes, en partant du principe que l'ordination sert à mettre en évidence les grandes tendances des données, et non les cas particuliers que sont les espèces rares.

Le principe consiste à retirer progressivement de l'analyse les espèces présentes dans 1, 2 ... prélèvements, en vérifiant l'effet de ce retrait sur l'inertie totale de la matrice de données et sur les valeurs propres des premiers axes factoriels ou canoniques.

La marche à suivre est la suivante:


  1. Lors de la préparation de la matrice de données, ordonner les espèces par fréquence (nb. de présences) décroissante (et non par ordre décroissant d'abondance!). Ainsi, il sera facile dans Canoco d'"éplucher" les données en retirant d'un coup toutes les espèces présentes une seule fois, puis deux, etc.

  2. Faire une première AFC ou ACC en gardant toutes les espèces, et en évitant toute forme de pondération (type downweighting of rare species). Si le contexte demande de transformer les données [p.ex. ln (y+1)], on peut le faire sans problème, à condition de s'en tenir toujours à la même transformation dans les analyses ultérieures!

    Noter l'inertie totale et les quelques premières valeurs propres (pas les pourcentages de variance expliquée!). Le nombre de valeurs propres à noter dépend de leur valeur et de l'appréciation de l'usager: il s'agit ici de garder le contrôle sur les structures principales dégagées par l'analyse.

  3. Faire une deuxième AFC ou ACC en donnant un poids de zéro à toutes les espèces présentes une seule fois. Noter à nouveau l'inertie totale et les quelques premières valeurs propres. Cette première étape a généralement pour effet de faire baisser l'inertie totale, mais pas (ou très peu) les premières valeurs propres. Ainsi, on a diminué le "bruit" de la matrice sans toucher aux structures principales! En conséquence, en ACC, le pourcentage de variance expliquée a augmenté.

  4. Faire une troisième AFC ou ACC en retirant les espèces présentes une et deux fois dans la matrice. Noter à nouveau l'inertie totale et les quelques premières valeurs propres. A ce stade, l'opération peut avoir le même effet que la première (point 3 ci-dessus). Dans ce cas, on peut poursuivre avec 3 présences, etc. Si les premières valeurs propres commencent à baisser notablement, voir en 5.

  5. Le critère d'arrêt dépend alors du problème. Il y a forcément une part d'arbitraire. Pour aider à la décision, je calcule le pourcentage de baisse de l'inertie totale et je le compare aux pourcentages de baisse de chacune des valeurs propres notées. Ces pourcentages doivent être calculés à chaque étape par rapport à la première étape (et non l'étape précédente!). En général, lors des deux ou trois premières étapes, l'inertie totale baisse de façon sensible (20% et plus), alors que les premières valeurs propres sont peu affectées (5% pour la première, un peu plus pour les suivantes). Lorsque la plus faible des valeurs propres retenues pour examen commence à "souffrir", on arrête l'opération une étape plus haut.