Présentation

Objectifs

Le cours SCI 1018 Statistiques avec R vise une appropriation, d’une part, des analyses statistiques de base utilisées en sciences et, d’autre part, du logiciel statistique libre R pour réaliser ces analyses.

Plus spécifiquement, à la fin du cours, l’étudiant devra être capable de :

Contenu

Problématique

Le domaine d’étude est la statistique appliquée aux sciences. La méthode hypothético-déductive est l’une des approches principales menant aux avancements et aux découvertes en sciences. L’élaboration d’un plan d’expérience (ou communément appelé dispositif expérimental), la récolte des données, l’analyse et l’interprétation des résultats sont des éléments essentiels de la démarche scientifique.

Sans une bonne maîtrise des concepts et des techniques statistiques, tels que l’échantillonnage et l’analyse des données, il peut être difficile d’arriver à des conclusions solides à la fin d’une expérience ou d’une étude d’observation. Les statistiques apportent une rigueur aux travaux en sciences et nous aident à faire des choix importants. Par exemple, en sciences environnementales, nous désirons souvent évaluer l’impact d’une certaine activité sur la structure d’une communauté (par exemple, la toxicité d’un produit déversé vis-à-vis de la probabilité de survie d’une espèce indicatrice) ou encore arriver à des décisions d’aménagement qui assureront la pérennité d’une espèce ou d’une population à risque. Dans de telles situations, une bonne connaissance des principes de base de statistiques devient un outil indispensable.

Les statistiques fréquentistes classiques sont encore beaucoup utilisées en sciences environnementales. En plus de présenter des approches classiques, ce cours couvre des méthodes plus récentes, notamment en ce qui concerne la présentation des résultats et la sélection de modèles. Une bonne maîtrise des analyses classiques ouvre la porte à un arsenal de méthodes statistiques qui prend continuellement de l’expansion. Effectivement, nous assistons à la démocratisation d’analyses autrefois trop complexes à réaliser à la main ou avec une calculatrice. On peut attribuer ce vent de changement à l’arrivée des ordinateurs personnels puissants et abordables sur nos tablettes ainsi qu’au développement de logiciels permettant des analyses de haut niveau.

Il existe un vaste éventail de logiciels disponibles pour réaliser des analyses statistiques. Parmi les plus notoires, il y a SAS qui est un logiciel propriétaire développé au début des années 1970. Pendant plus de vingt-cinq ans, SAS a rendu possible l’analyse d’immenses bases de données et d’un vaste éventail d’analyses sans réel compétiteur. Toutefois, le coût prohibitif des licences annuelles fait en sorte que le logiciel est destiné aux utilisateurs bien nantis financièrement ou pour lesquels l’institution d’attache peut absorber les coûts. Le choix limité des analyses, les options imposées par les programmeurs de SAS, les habiletés graphiques modestes de SAS, son manque de transparence (code fermé), et surtout son coût, ont motivé certains statisticiens et programmeurs à développer des alternatives.

Après plusieurs années d’effort, c’est en 1996 que Ross Ihaka et Robert Gentleman ont lancé R, un logiciel et langage de programmation libre (open source), disponible gratuitement. R est aujourd’hui devenu le plus gros projet collaboratif en statistiques et le compétiteur principal de SAS. Créé pour réaliser des analyses statistiques et des graphiques de haut niveau, R offre une grande flexibilité puisqu’on peut l’utiliser comme langage de programmation. Le logiciel s’installe sur des plateformes variées (Windows, Mac, Unix/Linux) et plusieurs ressources sont disponibles aux utilisateurs sous forme de fichiers d’aide intégrés directement dans R, de sites web, de forums de discussion, et d’une multitude de livres et de publications.

Le logiciel R est très stable, son interface graphique ne change pas d’une version à l’autre, et les changements concernent surtout les fonctions additionnelles ajoutées à l’environnement. Les mises à jour sont fréquentes et une nouvelle version du logiciel est développée chaque année. De plus, étant un projet collaboratif international, un grand nombre de fonctions sont rendues disponibles par les utilisateurs pour réaliser un grand nombre d’analyses ou pour faciliter son utilisation. D’ailleurs plusieurs statisticiens développent de nouvelles approches statistiques directement dans R. D’autres quant à eux ont développé une interface graphique simplifiée afin de réaliser les tests statistiques les plus courants. L’interface retenue dans le cadre du cours est celle de R Commander.

Une fois qu’il aura appris à travailler avec R ou R Commander, l’étudiant peut continuer à utiliser ce logiciel après le cours dans ses activités professionnelles ou dans ses études sans avoir à débourser des coûts d’installation, d’activation ou de mise à jour de logiciel.

Connaissances

Estimateurs, paramètres et échantillonnage :

Tests d’hypothèse :

Comparaisons de plusieurs groupes :

Régression et corrélation :

Logiciel R et R Commander :

Démarche pédagogique

Les leçons

Le cours est constitué de douze activités, soit une activité d’introduction, dix leçons et la passation d’un examen à domicile.

Pendant une leçon, l’étudiant est amené dans un premier temps à s’approprier un ensemble de concepts, de principes et de techniques par l’étude active d’un texte de référence. Dans un second temps, il réalise une activité pratique (laboratoire noté ou autoévaluation) qui lui permet de consolider ses apprentissages et de développer sa maîtrise du logiciel R.

La prise en mains du logiciel R et de R Commander est progressive. Les activités pratiques croient en complexité au fil des semaines. Une activité offre l’occasion à l’étudiant de réutiliser ou de transférer des apprentissages réalisés au cours des leçons précédentes.

Les travaux notés

Les deux premiers laboratoires comptent pour 15 % de l’évaluation globale alors que le troisième compte pour 30 %. L’examen final, réalisé à domicile lors de la dernière semaine compte pour 40 % de l’évaluation.

L’encadrement

L’encadrement est assuré par la personne tutrice qui vous sera assignée ou par la professeure responsable du cours.Vos interactions avec la personne qui vous encadre se font par messagerie électronique (de préférence) et téléphone ainsi que dans un forum de discussion.

La personne responsable de l’encadrement communique avec l’étudiant, au besoin, pour fournir des conseils ou pour transmettre des commentaires sur les travaux, ainsi que les notes obtenues aux différents laboratoires notés.

L’étudiant peut communiquer avec la personne responsable de son encadrement par messagerie électronique pour traiter de questions qui le concernent personnellement, et qui n’ont pas d’intérêt pour les autres étudiants. Si les questions ne sont pas personnelles, l’étudiant est invité à utiliser le forum de discussion.

Préalable

Cours de statistiques de niveau collégial, sans quoi, cours de mathématiques de niveau collégial (par exemple, mathématiques discrètes, algèbre, calculs différentiel et intégral) ou le cours MAT 1000 Outils mathématiques offert à la TÉLUQ.

Les ressources

Le matériel de cours réside sur un site web donnant accès à différentes ressources.

On y retrouve les consignes de réalisation des leçons, le calendrier, les textes de référence, les consignes des autoévaluations et des laboratoires notés, les solutions des autoévaluations, les gabarits pour la réalisation des laboratoires, des guides pour la prise en mains du logiciel R.

Quelques sites web dédiés aux statistiques et manuels complémentaires sont également suggérés.

Pour les échanges entre étudiants et une partie des communications avec la personne qui vous encadre, Google Groupes est utilisé. L’étudiant sera invité début de session à rejoindre l’espace dédié au cours.