Pense-bête |
Quelques unités mesurant la quantité d’informations en informatique
Unité | Valeur |
---|---|
demi-octet | 4 bits |
octet | 8 bits |
kilo-octet (Ko) | 1000 octets |
kibioctet (Kio) | 1024 octets |
mégabit (Mbit) | $10^6$ bits |
mébibit (Mibit) | $2^{20}$ bits |
mégaoctet (Mo) | $10^6$ octets |
mébioctet (Mio) | $2^{20}$ octets |
gigaoctet (Go) | $10^9$ octets |
gibioctet (Gio) | $2^{30}$ octets |
téraoctet (To) | $10^{12}$ octets |
tébioctet (Tio) | $2^{40}$ octets |
pétaoctet (Po) | $10^{15}$ octets |
pébioctet (Pio) | $2^{50}$ octets |
nombre d’électrons dans l’univers | $10^{79}$ |
Notions mathématiques
Rappel concernant les mathématiques élémentaires
– $e \approx 2.7182818284590451$ et $\pi \approx 3.1415926535897931$
– Si $i$ alors $a^i= a \times a \times \cdots \times a$ où la multiplication est répétée $i$ fois.
– Le logarithme en base $b$ satisfait $\log_b b^x = x$.
– On a $\log (ab) = \log a + \log b$.
– On a $\log (a/b) = \log a - \log b$.
– On a aussi $\log_a x = \log_b x / \log_b a$.
– La somme d’une séquence est notée $\sum_{k=1}^n x_k= x_1+x_2+\cdots+x_n$.
– Le produit d’une séquence est noté $\prod_{k=1}^n x_k = x_1 x_2 \cdots x_n$.
– Le logarithme d’un produit est une somme : $\log \prod_{k=1}^n x_k = \sum_{k=1}^n \log x_k$.
– L’exponentielle d’une somme est un produit : $a^{ \sum_{k=1}^n x_k} = \prod_{k=1}^n a^{x_k}$.
– La fonction $f$ est monotone croissante (respectivement décroissante) si $f(x) \geq f(y)$ lorsque $x \geq y$.
– Le symbole $\infty$ est l’infini. Nous savons que $\infty+\infty = \infty$, mais $\infty-\infty$ n’est pas défini.
– Le logarithme est défini pour les nombres supérieurs à zéro, avec la convention que $\log 0 = -\infty$. C’est une fonction monotone croissante.
– La factorielle $k !$ est définie par $k \times (k-1) \times \cdots \times 1$. La factorielle de 1 est 1 ($1 !=1$).
– Un élément $x$ appartient à un ensemble $D$ : $x \in D$.
– Si $x$ est un nombre, alors $\vert x \vert$ est sa valeur absolue : $\vert x \vert = x$ si $x \geq 0 $ et $\vert x \vert = -x$ si $x<0$.
– Si $D$ est un ensemble, alors $\vert D \vert$ est la cardinalité de l’ensemble (le nombre d’éléments).
– L’ensemble vide est noté $\oslash$.
– En logique booléenne, VRAI ET VRAI est VRAI, VRAI ET FAUX est FAUX, FAUX ET VRAI est FAUX, FAUX ET FAUX est FAUX. VRAI OU VRAI est VRAI, VRAI OU FAUX est VRAI, FAUX OU VRAI est VRAI, FAUX OU FAUX est FAUX.
Vecteurs et matrices
Ensemble
L’ensemble des nombres réels (incluant les nombres à virgule flottante) est noté $\mathbb{R}$.
L’ensemble des entiers est noté $\mathbb{Z}$.
Valeur absolue
Étant donné $x \in \mathbb{R}$ ou $x \in \mathbb{Z}$, alors $\vert x \vert = x$ si $x \geq 0$ et $\vert x \vert = -x$ si $x < 0$.
Nombres complexes
Les nombres complexes sont notés $z= x+iy$, avec $x,y\in \mathbb{R}$, et $\vert z \vert = \sqrt{x^2+y^2}$.
Vecteur
Un vecteur est un tableau à une dimension. Le nombre de cellules du tableau est le nombre de composantes du vecteur.
Exemple :
$V = \left [ \begin{array}{l}1 \\ 2 \\ 1\end{array} \right ]. $
On note $V_{i}$ la $i^{\textrm{e}}$ composante du vecteur $V$. Dans notre exemple, $V_1=1$.
Matrice
Une matrice est un tableau à deux dimensions ayant $m$ rangées et $n$ colonnes comme dans cet exemple :
$\left [ \begin{array}{ll}1 & 3 \\ 2 & 5 \\ 1 & 5\end{array} \right ]. $
On note $M_{i,j}$ la valeur se situant à la $i^{\textrm{e}}$ rangée et à la $j^{\textrm{e}}$ colonne de la matrice $M$. Dans l’exemple précédent, $M_{2,1}$ vaut 2 alors que $M_{1,2}$ vaut 3.
Multiplication d’un vecteur ou d’une matrice par un scalaire
Si les composantes du vecteur ou de la matrice sont des entiers ou des nombres réels, on peut les multiplier par un entier ou un nombre réel (un scalaire).
La multiplication se fait alors sur chaque composante comme dans cet exemple :
$2 \left [ \begin{array}{l}1 \\ 2 \\ 1\end{array} \right ] = \left [ \begin{array}{l}2 \\ 4 \\ 2\end{array} \right ].$
Multiplication de vecteurs et de matrices
Étant donné une matrice $M$ ayant $m$ rangées et $n$ colonnes et un vecteur $V$ ayant $n$ composantes, la multiplication de $M$ et de $V$, notée $M V$, est un vecteur $R$ ayant $m$ composantes et défini comme :
$R_i = \sum_{k=1,\ldots,n} M_{i,k} V_k$
Voici un exemple :
$\left [ \begin{array}{ll} 1 & 3\\ 1 & 2 \\ 3 & 1 \end{array}\right ] \left [ \begin{array}{l} 1 \\ 1 \end{array}\right] = \left [ \begin{array}{l} 4 \\ 3 \\ 4 \end{array}\right]. $
Multiplication de matrices avec d’autres matrices
Étant donné une matrice $M$ ayant $m$ rangées et $n$ colonnes et une autre matrice $P$ ayant $n$ rangées et $r$ colonnes, la multiplication de $M$ et de $P$, notée $M P$ est un vecteur $R$ ayant $m$ rangées et $r$ colonnes définies comme :
$R_{i,j} = \sum_{k=1,\ldots,n} M_{i,k} P_{k,j}$
Voici un exemple :
$\left [ \begin{array}{ll} 1 & 3\\ 1 & 2 \\ 3 & 1 \end{array}\right ] \left [ \begin{array}{ll} 1 & 1 \\ 1 & 0 \end{array}\right] = \left [ \begin{array}{ll} 4 & 1\\ 3 & 1 \\ 4 & 3 \end{array}\right]. $
Transposée d’une matrice
La transposée d’une matrice $M$ est notée $M^t$ et est tout simplement une réécriture de la matrice où les colonnes deviennent des rangées et vice versa : $M_{i,j}=M^t_{j,i}$. On peut montrer que $(AB)^t=B^tA^t$.
Matrice normale
Une matrice carrée est dite normale si elle commute avec sa transposée : $MM^t= M^tM$.
Matrice diagonale et matrice identité
Une matrice carrée est diagonale si seules les composantes sur la diagonale sont différentes de zéro : $M_{i,j}=0$ lorsque $i\neqj$. (le différent de j ne s’affiche pas...)
Une matrice diagonale est égale à sa transposée : $M = M^t$. Une matrice diagonale est nécessairement normale.
Lorsque la matrice est diagonale et que toutes les valeurs différentes de zéro sont égales à 1, on dit qu’il s’agit d’une matrice identité (notée $I$).
La multiplication d’une matrice par la matrice identité la laisse inchangée : $M I = I M$.
Matrices inverses
Si $M$ et $P$ sont deux matrices carrées telles que $MP= I$, alors $PM=I$ ; on dit que les matrices sont inverses l’une de l’autre et on note $M= P^{-1}$ ainsi que $P=M^{-1}$. Cependant, toutes les matrices n’ont pas un inverse.
Une matrice qui n’est pas carrée peut néanmoins avoir un inverse par la gauche ou par la droite : si $M$ n’est pas carrée, il peut exister $P$
tel que $MP=I$ ou $PM=I$ (mais pas les deux).
On utilise souvent la matrice inverse pour résoudre des équations linéaires. Ainsi, étant donné un matrice $A$ et un vecteur $b$, si on a $Ax=b$, alors $x= A^{-1}b$. Cependant, il est possible que le problème $Ax=b$ ait une solution même si $A$ n’est pas inversible.
Toutes les matrices, même les matrices qui ne sont pas carrées ou qui n’ont pas d’inverse, ont une matrice pseudo-inverse qui permet de trouver la meilleure solution (au sens des moindres carrés) pour l’équation $Ax=b$. On peut calculer la matrice pseudo-inverse en utilisant la décomposition en valeurs singulières.
Matrice diagonalisable
Une matrice carrée $M$ est diagonalisable s’il existe une matrice $P$ telle que $P M P^{-1}$ est une matrice diagonale. Toutes les matrices normales sont diagonalisables, mais toutes les matrices ne sont pas diagonalisables. Les valeurs trouvées sur la diagonale sont appelées les valeurs propres de la matrice et sont toujours les mêmes, même si le choix de $P$ n’est pas toujours unique.
Normes
La norme d’un vecteur ou d’une matrice $V$ est « une mesure de longueur » notée $\Vert V \Vert $.
La norme euclidienne est la racine carrée de la somme des composantes au carré : $\Vert V \Vert = \sqrt{ \sum_i \vert V_i \vert^2}$. Étant donné un vecteur $V=(a,b)$, la norme est $\Vert V \Vert = \sqrt{a^2+b^2}$. À moins de mention contraire, nous utilisons toujours la norme euclidienne.
Dans le cas d’une matrice, la norme euclidienne prend le nom de la norme de Frobenius :
$\Vert M \Vert = \sqrt{\sum_{i,j} \vert M_{i,j} \vert^2 }.$
Voici un exemple :
$\left \Vert \begin{array}{ll} 1 & 0\\ 1 & 1 \\ 3 & 2 \end{array}\right \Vert = \sqrt{1+1+1+3^2+2^2}=4. $
Produit scalaire
Le produit scalaire entre deux vecteurs est la somme du produit de leurs composantes une à une :
$V\cdot W = \sum_i V_i W_i$
Pour pouvoir calculer le produit scalaire de deux vecteurs, il faut qu’ils aient le même nombre de composantes.
Voici un exemple :
$\left [ \begin{array}{l} 1 \\ 1 \\ 3 \end{array}\right ] \cdot \left [ \begin{array}{l} 1 \\ 1 \\ 1 \end{array}\right] = 5. $
On peut vérifier que $\Vert V \Vert^2 =V\cdot V$. De plus, le vecteur $\frac{V}{\Vert V \Vert}$ est unitaire, c’est-à-dire qu’il a une norme de 1 : $\Vert\frac{V}{\Vert V \Vert}\Vert=1$.
Le cosinus entre deux vecteurs est donné par
$\cos \theta = \frac{V\cdot W}{\Vert V \Vert \Vert W \Vert}.$
Vecteurs orthogonaux
Les vecteurs $V$, $W$ et $Z$ sont orthogonaux si le produit scalaire entre les vecteurs est nul : $V\cdot W = 0$, $V \cdot Z=0$ et $W \cdot Z = 0$. On dit qu’ils sont orthonormaux si en plus d’être orthogonaux, leurs normes sont unitaires : $\Vert V \Vert^2= V\cdot V = 1$, $\Vert W \Vert^2= W \cdot W=1$ et $\Vert Z \Vert^2=Z \cdot Z = 1$.
Matrice orthonormale
Les colonnes d’une matrice peuvent être vues comme des vecteurs. Si l’ensemble de ces vecteurs sont orthogonaux, alors la matrice est orthonormale [1]. Une matrice orthonormale satisfait $M^tM=I$, c’est-à-dire
que sa transposée est son inverse par la droite. Une matrice orthonormale n’est pas nécessairement carrée.
Attention de ne pas confondre les matrices orthonormales avec les matrices normales ! Par exemple, une matrice qui n’est pas carrée ne peut être normale, mais elle peut être orthonormale. Par contre, une matrice carrée orthonormale est nécessairement normale.
Décomposition en valeurs singulières
Toutes les matrices $M$ peuvent s’écrire sous la forme $M=USV^t$ où $U$ et $V$ sont orthonormales, et $S$ est une matrice diagonale [2].
Notation grand-O
Définition. Soit $f(n)$ le nombre d’opérations effectuées par un algorithme ; on dit que le temps mis par l’algorithme est $O(g(n))$ (ou bien $f(n) \in O(g(n))$) s’il existe deux nombres $M$ et $n_0$ tels que $f(n) \leq M g(n)$ pour $n>n_0$.
Les grandes classes importantes pour ce cours sont (de la plus rapide à la plus lente) : $O(1) \subset O(n) \subset O(n \log n) \subset O(n^2)$.
Probabilités
La moyenne
La moyenne d’un vecteur $V$ est la somme de ses composantes divisée par le nombre de composantes ; elle est notée $\overline{V}$.
La corrélation
Étant donné deux vecteurs de même taille, on peut calculer la corrélation de Pearson entre les deux vecteurs comme étant :
$\mathrm{Pearson}(V,W)= \frac{ (V-\overline{V})\cdot(W-\overline{W}) }{ \Vert V-\overline{V} \Vert \Vert W-\overline{W} \Vert }$
La corrélation de Pearson est une valeur entre -1 et 1. Le carré de la corrélation de Pearson donne le pourcentage de corrélation.
La fréquence
La fréquence est le nombre de fois qu’une instance ou objet se manifeste. Par exemple, la fréquence du mot rue dans le journal est le nombre de fois que le mot rue est utilisé dans les textes du journal.
La distribution
Dans le cadre de ce cours, la distribution est une fonction qui, pour chaque instance possible, nous donne la probabilité correspondante. La somme de toutes les probabilités doit être 1.
Le rang
Étant donné une distribution, l’instance la plus probable occupe le premier rang, la deuxième instance la plus probable occupe le second rang et ainsi de suite.
Les lois de Zipf et Mandelbrot : origine et définition
Selon la loi de Zipf, si $n$ est le $n^{\mathrm{e}}$ mot le plus fréquent dans un texte, alors il doit avoir la fréquence $f(n)=\frac{K}{n}$ où $K$ est une constante (indépendante de $n$).
La théorie de l’information
Si un mot $x$ apparaît $f(x)$ fois dans un texte de longueur $n$, la probabilité de choisir le mot $x$ par hasard dans le texte est $p(x)=f(x)/n$. On dit que la quantité d’informations associée au mot $x$ est de $-\log p(x)$. Ainsi, si $p(x)$ est très petit, la quantité est très grande alors que si $p(x)$ est très grand, la quantité est presque nulle. La moyenne de la quantité d’informations dans les mots d’un texte est donnée par $-\sum_x p(x) \log p(x)$ et la quantité d’informations dans un texte est mesurée comme étant $-\sum_x p(x) \log p(x) n$.
La probabilité
La probabilité est toujours une valeur entre 0 (un événement impossible) et 1 (un événement certain).
On note la probabilité que l’événement $A$ se produise par $P(A)$ et la probabilité qu’il ne se produise pas, par $P(\bar A)$. Nous avons $P(A)+P(\bar A)=1$.
$P(A\textrm{ ET }B)=P(A \cap B)$ est la probabilité que $A$ et $B$ se produisent.
Les événements $A$ et $B$ sont indépendants si et seulement si $P(A\textrm{ ET }B)=P(A \cap B)=P(A)P(B)$.
La probabilité conditionnelle et la vraisemblance
La probabilité conditionnelle est la probabilité étant donné un fait connu. On note la probabilité conditionnelle avec la barre verticale, comme ceci ($P(A|B)$), probabilité de $A$ sachant $B$.
Formellement, on définit la probabilité conditionnelle ($P(A|B)$) comme
$P(A|B)=P(A\textrm{ ET }B) / P(B)$.
Nous avons $P(A|B)+P(\bar A|B)=1$. En général, $P(A|B)\neq P(B|A)$ ; cependant, on peut calculer l’une des valeurs à partir de l’autre en utilisant le théorème de Bayes.
Le théorème de Bayes stipule que $P(A|B) = \frac{P(B | A) P(A)}{P(B)}$.
La vraisemblance est définie comme $L(B|A)=P(A|B)$.
[1] Certains auteurs appellent de telles matrices des matrices orthogonales, mais d’autres réservent cette appellation aux matrices carrées. D’autres auteurs, encore, exigent que les rangées de la matrice, plutôt que les colonnes, soient des vecteurs orthogonaux.
[2] L’énoncé exact de la définition peut varier d’un auteur à l’autre, mais toutes les définitions devraient être équivalentes.