Interaction des langages R et Perl pour les statistiques

Le but de cet article est de vous présenter comment faire interagir les langages R et Perl. 8 commentaires

L'auteur

stoyak

L´article

Publié le 9 août 2011

Mis à jour le 13 août 2011

Public visé : tout le monde

Liens sociaux

1. Introduction▲

Le langage R, distribué gratuitement, est très utilisé dans le domaine des statistiques et de l'analyse des données, notamment grâce à une bibliothèque large et complète. Perl est un langage de script qui permet de manipuler aisément processus et fichiers textes. Les mathématiciens et bio-informaticiens l'apprécient également pour sa gestion des expressions régulières. Il peut donc être très intéressant de conjuguer ces deux langages, afin de profiter de leurs avantages respectifs.

Statistics::R (Controls the R interpreter through Perl) est l'un des modules qui permet de faire interagir les langages R et Perl.

Il est ainsi possible dans un script Perl de faire appel à R et à ses bibliothèques, de récupérer les objets ainsi créés et de les exploiter dans le pipeline d'analyse.

Les étapes principales d'utilisation du module sont les suivantes :

déclaration de l'objet Perl $R ;
ouverture du pont entre R et Perl ;
chargement des bibliothèques et/ou création des objets R et/ou des calculs statistiques ;
fermeture du pont.

On prendra ici l'exemple de l'analyse de données transcriptomiques en utilisant la bibliothèque FactoMineRFactoMineR. L'un des scripts ci-dessous pourra donc être utile aux bio-informaticiens débutants !

2. Contexte▲

L'exemple est basé sur l'étude de données transcriptomiques. Le fichier de soumission contient les données d'expression de 20 562 gènes pour deux conditions A et B, chacune représentée par quatre échantillons (de A1 à A4 et de B1 à B4).

Ce tableau de données contient donc huit échantillons (huit individus ou huit colonnes) et 20 652 gènes (variables quantitatives). Une variable qualitative sera ajoutée pour décrire chaque échantillon.

Illustration 1: Extrait du tableau de données

L'objectif de cette étude est de résumer et décrire ce jeu de données et d'identifier des relations avec les conditions A et B.

Classiquement, le fichier de données représente les gènes en lignes et les individus en colonnes. En effet, en transcriptomique, le nombre de gènes est très largement supérieur au nombre d'échantillons. Ce format permet ainsi d'être supporté par la plupart des tableurs et des éditeurs de texte.

Pour l'utilisation de la fonction ACP (analyse en composantes principales) disponible dans la bibliothèque FactoMineR, ce tableau sera donc importé et transposé.

3. Options et méthodes▲

Les principales options du module Statistics::R sont les suivantes :

log_dir : espace de travail. Il représente le répertoire de travail où le pont sera créé entre les deux langages. R et Perl doivent y avoir les droits de lecture et d'écriture ;
r_bin : chemin vers l'exécutable R.

Les méthodes principales du module Statistics::R sont les suivantes :

startR : ouverture du pont entre R et Perl ;
start_sharedR : ouverture du pont ou utilisation d'une communication existante ;
stopR : fermeture du pont entre R et Perl ;
Rbin : retour du chemin de l'exécutable R ;
send ($CMD) : envoi des commandes à exécuter par R ;
is_started : TRUE si l'interpréteur R est démarré ;
clean_up : nettoyage de l'environnement en supprimant tous les objets ;
error : retour du dernier message d'erreur.

Remarque : il est bien sûr nécessaire que R soit préalablement installé !

Pour l'envoi des commandes R, on utilise la commande qq`` dans le cas où il est nécessaire d'interpoler des variables Perl ou pour lire les objets créés par Perl :

envoi des commandes

Data	Col1	Col2	Col3
Row1	A	1	z
Row2	B	2	y
Row3	C	3	x
Row4	D	4	w

1. Introduction▲

2. Contexte▲

3. Options et méthodes▲

4. Exemples▲

4-A. Exemple de données transcriptomiques▲

4-B. Exemple de la bibliothèque FactoMineR▲

5. Remerciements▲