Identication à la limite d'automates probabilistes résiduels avec probabilité un

François Denis1 , Yann Esposito1
LIF-CMI, UMR 6166 39, rue F. Joliot Curie 13453 Marseille Cedex 13 FRANCE fdenis,esposito@cmi.univ-mrs.fr

Les automates probabilistes (PFA) sont des objets permettant de modéliser des distributions de probabilités dénies sur des ensembles de mots. Ils ont la même expressivité que les Modèles de Markov Cachés utilisés dans de très nombreuses applications. Pour une sous-classe des PFAs, les automates probabilistes déterministes (PDFA), des algorithmes d'identication à la limite ont été élaborés. Malheureusement les PDFAs sont beaucoup moins expressifs que les PFAs. Aussi étudions-nous une classe d'expressivité intermédiaire : les automates probabilistes résiduels (PRFA). Nous montrons que les PRFAs à paramètres rationnels sont identiables à la limite avec une probabilité de 1.
Résumé

1 Introduction
Les automates probabilistes (PA) sont des objets formels permettant de modéliser des distributions de probabilités dénies sur des ensembles de mots appelés aussi langages stochastiques [1]. Ils sont composés d'une structure qui est un automate ni (NFA) et d'un ensemble de paramètres associés aux états et aux transitions représentant la probabilité pour un état d'être initial ou terminal, ou la probabilité qu'une transition soit empruntée. À un automate probabiliste A déni sur l'alphabet Σ , on associe naturellement une distribution de probabilités PA dénie sur Σ ∗ . Les automates probabilistes ont la même expressivité que les Modèles de Markov Cachés (HMM) [2,3,4] et peuvent donc être utilisés dans les mêmes conditions, pour les mêmes très nombreuses applications (reconnaissance de la parole, analyse de séquences biologiques, . . . ). Les algorithmes dénis à propos des HMMs (voir [5] par exemple) peuvent facilement être adaptés aux PAs. Étant donnés un automate probabiliste A et un mot u, on sait calculer ecacement la probabilité PA (u) (algorithmes forward-backward) ; on sait aussi, parmi tous les chemins de A reconnaissant u, trouver le plus probable (chemin de Viterbi). Étant donnés une structure d'automate probabiliste A et une suite de mots u1 , . . . , un tirés indépendamment selon une même distribution de probabilité P , le problème consistant à trouver les paramètres de A maximisant la vraisemblance des observations est NP-dur [3]. Mais des algorithmes basés sur le principe EM (Expectation-Maximisation ) [6] permettent de calculer des approximations de ces paramètres jugées souvent satisfaisantes (algorithmes d'apprentissage de Baum-Welch et de Viterbi). En revanche, le problème consistant à inférer un automate probabiliste (structure et paramètres) d'une suite de

En eet. fA (u)) tel que fA (u) = fB (u) sinon. en réponse à une requête d'équivalence portant sur un automate à multiplicité B . L'inférence d'automates probabilistes est donc un sujet de recherche prometteur. Cette objection peut pourtant être assez facilement levée.15]. La conjonction de ces deux petits défauts en génère un grand. dans lequel l'apprenant est supposé pouvoir formuler des requêtes d'appartenance et d'équivalence étendues : pour une cible A xée. On se doute qu'il y a sans doute mieux à faire et certains travaux ont conrmé cette intuition [8] : rechercher des structures à partir des données est souvent préférable à poser des structures a priori. Certains auteurs ont choisi de travailler avec des objets plus généraux que les automates probabilistes : les automates à multiplicité (MA)[9.376 ) en utilisant r requêtes d'équivalence et O((|Σ| + log m)r2 ) requêtes d'appartenance. Un automate à multiplicité A dénit donc une fonction fA de Σ ∗ à valeurs dans K . On peut juger qu'il n'est pas très réaliste de supposer qu'on dispose d'oracles d'appartenance et d'équivalence. selon la terminologie utilisée dans l'apprentissage PAC.11]. on déduit immédiatement du résultat précédent qu'ils sont apprenables par requêtes d'appartenance et d'équivalence. l'oracle retourne oui si fA = fB et un couple (u.10. en réponse à une requête d'appartenance portant sur un mot u.mots u1 . L'algorithme proposé dans [11] identie la cible en un temps O((|Σ| + m)r3. D'autre part.13]. soit l'on part d'un automate possédant une structure de graphe complet. L'ensemble des fonctions dénies par des automates à multiplicité sont apprenables dans une variante du modèle d'apprentissage exact d'Angluin. . Un automate à multiplicité possède les mêmes caractéristiques qu'un automate probabiliste sauf celles qui contraignent l'automate à dénir une distribution de probabilités : les paramètres sont donc à valeur dans un corps K quelconque (généralement Q). soit la connaissance du domaine permet de choisir une structure a priori (Cf le modèle standard pour l'analyse des séquences biologiques [7]). un oracle retourne la valeur fA (u) . on peut . un tirés indépendamment selon une même distribution de probabilités P est encore un sujet de recherche largement ouvert. Comme les automates probabilistes sont des cas particuliers d'automates à multiplicité. . où r est le nombre d'états de la cible et où m est la longueur du plus grand contre-exemple retourné par l'oracle d'équivalence. . En revanche. deux autres caractéristiques de ce résultat s'avèrent beaucoup plus gênantes : l'algorithme d'apprentissage de [11] suppose qu'on dispose exactement de la valeur fA (u) ce qui n'est jamais le cas en pratique et il retourne un automate à multiplicité qui calcule la fonction dénie par la cible mais qui n'est pas lui-même un automate probabiliste : l'apprentissage est impropre. on sait qu'on peut transformer tout résultat d'apprentissage exact en un résultat d'apprentissage où l'on fait l'hypothèse que l'apprenant dispose d'un échantillon contenant susamment d'information sur la cible : la plupart des algorithmes développés en inférence grammaticale reposent sur cette hypothèse [14. . Ce beau résultat n'est pourtant pas entièrement satisfaisant. on sait qu'on peut se passer de l'oracle d'équivalence en passant du modèle d'apprentissage exact au modèle d'apprentissage PAC avec requêtes d'appartenance [12. D'une part. Dans la plupart des applications des automates probabilistes ou des HMMs.

il est indécidable de savoir si un automate à multiplicité génère une fonction positive. un . où le langage résiduel d'un langage stochastique P est le langage u−1 P déni par u−1 P (v) = P (uv)/P (uΣ ∗ ). ces trois points ont été obtenus : l'ensemble des automates déterministes probabilistes à paramètres rationnels sont identiables à la limite avec une probabilité de 1 [16. On suppose dans ce modèle qu'une cible A étant xée.17. un langage stochastique peut être engendré par un PRFA ssi ses langages résiduels (éventuellement en nombre inni) sont contenus dans un polytope dont les sommets sont des langages résiduels. tirées indépendamment selon PA . la structure d'un automate permettant de générer PA soit identiée à partir d'un certain rang et que PAn converge vers PA . . que PAn soit égal à PA à partir d'un certain rang. Un premier résultat d'inférence de PRFAs a été montré dans [19]. un retournera un automate An . en revanche.18]. . . Un automate probabiliste A est un PRFA ssi chacun de ses états dénit un langage résiduel de PA . Si la structure de la cible est un automate déterministe. Les langages dénis par des PRFAs ont une caractérisation intrinsèque : il s'agit des langages stochastiques P admettant une base nie de langages résiduels. . v −1 P = αi u−1 P où les poids αi sont des réels positifs. Le modèle d'apprentissage par identication à la limite de Gold a été étendu de façon à pouvoir rendre compte de l'apprentissage de langages stochastiques. on peut aussi demander. Il semble indispensable de pouvoir générer des langages plus riches. . il retournerait une fonction qui ne calculerait pas nécessairement une distribution de probabilités et sans qu'on puisse s'en assurer. c'est-àdire tels qu'il existe un ensemble ni de mots u1 . Un algorithme d'apprentissage A. Il est donc indispensable de travailler dans un cadre théorique qui suppose que les données sont approximatives et qui impose de retourner une distribution de probabilités. par exemple lorsque les paramètres de A sont des rationnels. l'apprenant dispose d'une suite d'observations u1 . . . . Nous démontrons dans cet article que les PRFAs à paramètres rationnels sont identiables à la limite avec une probabilité de 1. . . En reformulant cette i dénition géométriquement. un tel que pour tout mot v . On demande qu'avec une probabilité de 1. Malheureusement. . . .facilement vérier si un automate à multiplicité est un automate probabiliste . La classe des automates probabilistes résiduels (PRFA) a été introduite dans [19]. . et contrairement au cas non probabiliste. Ces automates sont basés sur des composantes naturelles des langages qu'ils reconnaissent : leurs langages résiduels. Cela a pour conséquence que même si l'on était capable de modier l'algorithme déni dans [11] de façon à ce qu'il puisse travailler avec des valeurs approchées PA (u) de PA (u) (ce qui ne semble pas si simple). . Ce résultat théorique donne lieu à des implémentations qui peuvent être utilisées dans les cas pratiques. . les automates déterministes probabilistes ont une expressivité très inférieure à celle des automates probabilistes dans leur ensemble : on peut démontrer que les langages stochastiques qu'ils reconnaissent sont exactement ceux qui n'ont qu'un nombre ni de langages résiduels. prenant en entrée u1 .

uv ∈ L}. La fonction fA associée à un MA A est dénie par fA (u) = q∈Q r∈Q ι(q)ϕ(q. U. ι. Σ ∗ . ϕ. x)) ≤ 1. On étend ∗ encore ϕ à Q × 2Σ × 2Q par ϕ(q. On désigne le plus grand mot d'un langage ni L par max (L). w. F. Un langage est un sous-ensemble de Σ ∗ . s)ϕ(s. δ est la fonction de transition dénie de Q × Σ dans 2Q . δ tel que δ(q. Un Automate Fini Probabiliste (PFA) est un automate à multiplicité dont les fonctions ϕ. Soit P un langage stochastique . Q0 . wa. Q. F. τ (q) + a∈Σ r∈Q ϕ(q. Si L est un langage. r) = 1 si q = r et 0 sinon. r) où a ∈ Σ et ϕ(q. Soit L un langage et u un mot. Un mot u ∈ Σ ∗ est reconnu par un NFA A = Σ. v) ∩ F = ∅}. selon l'ordre lexicographique. On étend la fonction de transition ϕ à Q × Σ ∗ × Q par : ϕ(q. x) = {r | ϕ(q. τ : Q → K sont respectivement les fonctions de transition. Σ ∗ ). on note pref (L) = {u ∈ Σ ∗ | ∃v ∈ Σ ∗ . ϕ. 1] et satisfont : q∈Q ι(q) = 1. on note PA. Q0 . ι. r) = s∈Q ϕ(q. Nous noterons aussi par δ l'extension de la fonction de transition dénie de 2Q × Σ ∗ vers 2Q . QT . Q. u. F ⊆ Q est l'ensemble des états terminaux. QT ) = 0 pour tout q ∈ Qatt .2 Préliminaires 2. et ϕ(q. Soit q ∈ Q.q le langage {v ∈ Σ ∗ | δ(q. x.q est un résiduel de LA [20]. On suppose que Σ ∗ est ordonné d'abord par longueur croissante et pour chaque longueur. QI . Le langage résiduel de L par rapport à u est u−1 L = {v | uv ∈ L}. ϕ : Q × Σ × Q → K . F.1 Automates et langages Soit Σ un alphabet ni. Q0 . τ où Q est un ensemble ni d'états. Q0 ⊆ Q est l'ensemble des états initiaux. w. Le mot vide sera noté ε. r)τ (r). a. R) = w∈U r∈R ϕ(q. u)∩F = ∅ et le langage reconnu par A est LA = {u ∈ Σ ∗ | δ(Q0 . u) ∩ F = ∅}. r) = 1 pour tout état q . ιq . LA. Card (δ(q. La fonction PA associée à un PFA A est un langage stochastique sur Σ qui sera dit généré par A. et soit Σ ∗ l'ensemble des mots sur Σ . Le support d'un MA A = Σ.2 Automates probabilistes et langages stochastiques Soit un corps K . Q. Un langage stochastique sur Σ est une distribution de probabilités sur Σ ∗ . L'ensemble des états initiaux est déni par QI = {q ∈ Q | ι(q) = 0}. d'initialisation et de terminaison. ι : Q → K . τ est le NFA Σ. Q. L'ensemble des états terminaux est déni par QT = {q ∈ Q | τ (q) = 0}. ∀x ∈ Σ . Un automate ni à états résiduels (RFSA) est un NFA A = Σ. ε.q le langage stochastique généré par le PFA < Σ. L'ensemble des états atteignables est Qatt = δ(QI . On note LA. Q. δ où Q est un ensemble ni d'états. r) = 0}. δ si δ(Q0 . Pour tout état q . r). δ tel que pour tout état q ∈ Q. a. Un automate ni déterministe probabiliste (PDFA) est un PFA dont le support est déterministe. L est dit préxiel si et seulement si L = pref (L) Un automate ni non déterministe (NFA) est un quintuplet A = Σ. 2. ϕ. Q. ι et τ prennent leur valeurs dans [0. Q. τ > où ιq (q) = 1. Un NFA est déterministe (DFA) si Q0 est un singleton et si ∀q ∈ Q. un automate à multiplicité (MA) est un quintuplet Σ.

Malheureusement. les langages stochastiques générés par les PDFAs sont ceux qui possèdent un nombre ni de résiduels. Il a aussi été montré dans [19] que les PFAs sont plus expressifs que les PRFAs. 2 3 1 2 1 3 a a. a. 11 20 b. On voit que ε−1 PA = PA. et ce pour deux raisons : avec des valeurs approchées. nous ne pouvons obtenir que des MAs approchés qui ne généreront pas nécessairement un langage stochastique aussi proches soient-ils de la cible. ϕ(ε.ε . Les langages générés par les PFAs sont les langages stochastiques P tels qu'il existe un ensemble ni de langages stochastiques P = {P1 .508 1 ε b. 1 2 1 2 1 2 a. a. Il semble naturel de vouloir étendre ces méthodes aux cas approchés. 4 11 Un PRFA cible et le PRFA appris par l'algorithme avec une vingtaine de mots. b. Le langage résiduel u−1 P est le langage stochastique qui associe à tout mot w la probabilité u−1 P (w) = P (uw)/P (uΣ ∗ ). renvoient un automate à multiplicité qui génère P . a) = 1 . Il est proposé dans [1. 7 11 b. alors l'enveloppe convexe de P est dénie par conv P = P ∈P αP P | ∀P ∈ P. τ où Σ = {a. Q = {ε. a. b.b . Les 3 deux PRFAs de la gure 1 possèdent le même support. c'est-à-dire tel que ∀q ∈ Q. Supposons que nous voulions apprendre le langage stochastique P généré par un PFA. Un automate ni résiduel / probabiliste (PRFA) est un PFA A = Σ. eux-mêmes étant plus expressifs que les PDFAs.a et b−1 PA = PA. nous ne pouvons pas le faire. PA. 9 20 a a. 1.492 a. p ∈ conv R. αP ≥ 0 et P ∈P αP = 1 .et soit u un mot tel que P (uΣ ∗ ) = 0. a. ϕ. a. Les langages générés par les PRFAs sont les langages P dont l'ensemble P des langages résiduels premiers est ni et dont tout langage résiduel w−1 P appartient à conv P . τ (b) = 2 . . 1 ε b. b}. Plus précisément. a. La gure 1.q = u−1 PA [19]. a. 0. b) = 1 et 3 2 2 2 2 ϕ(b.a représente le PRFA Σ. ∃u ∈ Σ ∗ . . Pn } tel que pour tout Pi et pour tout résiduel w−1 Pi . ϕ(a. 0. Fig. ϕ. . ι. ϕ(a. b) = 1 . w−1 Pi ∈ conv P et tel que P ∈ conv P (voir [21] pour une étude complète). a−1 PA = PA. Un résiduel premier de P est un résiduel R tel que pour tout ensemble ni R de résiduels de P ne contenant pas R.10] des algorithmes qui. Q. . ι (ε) = 1. Les PDFAs sont des PRFAs. 3 Apprentissage impropre à partir de données approximatives : une diculté. a. ϕ(ε. ι. b) = 1 . τ dont tout état dénit un langage résiduel. a. Q. Si P est un ensemble ni de langages stochastiques. . b}. a) = 1 . à partir des probabilités P (w) de certains mots w. a.

1 Problème de robustesse de la représentation en MA.2 Problème de décision Proposition 1. #. F F F ϕ (qc . τ un PFA accepteur. q) = ι(q) 1 pour toute lettre a et tout état de Q. et soit qt son unique état terminal. Malheureusement nous avons le résultat négatif suivant : il existe des MAs A et B . qc }. τ F (q) = 1 si q ∈ {qc . 1 1 1 −x a. Une extension naturelle d'un des algorithmes donné dans [1. qt . qc ) = 1 pour toute lettre a ∈ Σ . le premier génère des valeurs négatives et le second des valeurs non bornées. qh ) = 2 et ϕ est nulle pour toutes les autres transitions.Nous ne connaissons pas de procédure de décision qui permette de savoir si un MA génère un langage stochastique. Q∪{qi . Si x > 0. gure 2). qh2 . Fig. ϕF est identique à ϕ sur Q × Σ × Q. Nous montrons que savoir si un MA génère une fonction positive est indécidable. 1 3 1 2 a. ϕF . − 1 − x 2 1 2 1 a.10] prendra en entrée un échantillon de mots générés par un langage PA et retournera dans le meilleur des cas un MA hypothèse H dont le support sera identique au support de A et dont les valeurs portées par les arêtes seront proches de celles de A. ιF (q) = 1 si q = qi et 0 sinon. a. 1 3 1 3 a. qh2 }. qh1 . ϕF (qh . 1 + 2x 1 0 a. τ F où # est une nouvelle lettre. c. Sachant que nous avons construit un automate tel que tous les mots qui se terminent par # sont produit avec un valeur . 1 + x a. #. a. Savoir si fF est une fonction positive est indé- Soit A = Σ. Nous avons PF (au) = PA (u) − λ. b. qc est l'état constant qui attribue la valeur 1 à tous les mots. savoir si un MA génère une fonction positive est indécidable. Q. Soit F un MA. ϕF (q. Démonstration. −1 si q = qh1 et 0 sinon. Σ. ϕF (qi . qi est le seul état initial. −1 b. 3. Considérons le MA (gure 3). #. qc }. qh ) = 1 − ϕ(q. cidable. 2. dont seul le premier génère un langage stochastique (Cf. qh1 ) = ϕF (qh . ϕ (qh1 . −2x Deux MAs qui génèrent des langages stochastiques si x = 0. Q) pour tout état q de Q ∪ {qi . F = Σ∪{#}. a. 1 + x a. 3. La représentation de langages stochastiques par des MAs n'est pas robuste. qh . qh est l'état puits générant la fonction nulle sur les mots. #. ιF . qh2 ) = 2 . ayant même structure et des paramètres arbitrairement proches. ι. ϕ. 1 2 a. De plus.

Sn (W ) = w∈W Sn (w). 3. PA (w) < λ qui est indécidable. PF (w) < 0. Par exemple. 4. Si Card(Σ) = 1. Notre algorithme construit également un automate arborescent mais recherche plus généralement si le langage déni par un état appartient à la partie convexe des langages dénis par les autres états. A 1 qt #. 2 −1 qh1 #. On dit que S est pulvérisé par A si {S ∩ Ai | i ∈ I} = 2S . . à la limite. 1 1 qc a. alors. 4 Identication à la limite de la structure des PRFAs. si nous pouvions décider ∃w ∈ Σ ∗ . #. . 1 2 1 qh2 #. 1 b. Par abus de notation on écrira w ∈ Sn ssi Sn (w) = 0. La plupart des algorithmes d'inférence de PDFAs construisent d'abord un automate arborescent à partir de l'échantillon. Dans la suite nous ne considérons que les langages stochastiques générables par des PRFAs. ι(·) #. . Un échantillon stochastique S de P est une suite innie de mots générés selon la distribution de probabilités P . On notera Sn la séquence composée des n premiers mots de S .nulle. Soit X un ensemble dénombrable. En particulier nous montrons que les tests d'appartenances d'un langage résiduel à l'enveloppe convexe d'autres langages résiduels deviennent équivalents. #. 0 qh Fig. Soit P un langage stochastique. La séquence Sn dénit un langage stochastique Pn où Pn (w) = Sn (w)/n. Pour tout sous-ensemble W ⊂ Σ ∗ . travailler avec des valeurs exactes ou approchées est similaire. Le nombre d'occurrences du mot w dans Sn sera noté Sn (w). a. 1 2 #. La VC-dimension VC(A) de A est le plus grand cardinal d'un ensemble pulvérisé par A. . #. −λ a. Un MA qui simule un PFA accepteur.1 Préliminaires Nous montrons que lorsque la taille de l'échantillon croît. nous pourrions décider ∃w ∈ Σ ∗ . soit X = Σ ∗ et soit A = (wΣ ∗ )w∈Σ ∗ . recherchent les états qui semblent générer les mêmes langages puis les fusionnent. . soit A = (Ai )i∈I une famille de sousensembles de X et soit S un sous-ensemble ni de X . alors. ι(·) 0 qi a. on peut facilement montrer que {ε} est pulvérisé .

En eet si sol (E(v. VC(A) = 1 si Card(Σ) = 1 et VC(A) = 2 si Card(Σ) > 1. a(9). avec une probabilité supérieure à |Pn (wΣ ∗ ) − P (wΣ ∗ )| ≤ pour tout w ∈ Σ ∗ . P )) = sol (E (b. Les systèmes E nécessitent une connaissance des valeurs exactes des probabilités alors que les systèmes I peuvent s'obtenir à partir d'un échantillon ni. b} . aaaaaaa(1). xba = 1 . aa(4). u On désignera par sol (E) l'ensemble des solutions du système E . n ∈ IN et > 0. δ). Soit W l'ensemble des mots w tels que : ∃u ∈ U ∪ {v} . Lemme 1. P )) n'est pas vide alors cela signie que v −1 P ∈ conv u−1 P | u ∈ U . s. aaaaa(1).a et appelons P le langage qu'il génère. tout paramètre de conance δ.23] que pour n'importe quel paramètre de conance δ . baa(1). Supposons que ∀u ∈ U ∪ {v}. Ces deux systèmes linéaires permettent de tester l'appartenance d'un résiduel à l'enveloppe convexe d'autres résiduels. pour tout n ≥ Ψ1 ( . soit r. Ces mots sont comparables deux à deux. aaa(1). sol (E (aa. Pn (uwΣ ∗ ) = 0. On dénit le système E(v. Prenons comme exemple le PRFA de la gure 1. s. Les préxes des mots de S20 avec leur nombre d'apparition sont : ε(20). P )) = xaa = 0. ) : xv ≥ 0 pour tout u u ∈ U et pour tout w ∈ W : v −1 Pn (wΣ ∗ ) − u∈U xv u−1 Pn (wΣ ∗ ) ≤ . il est clair que {a. ba(3). Pour tout paramètre de précision . U. {ε. {ε. a} . P ) d'équav v tions et d'inéquations linéaires sur les variables (xu )u∈U : xu ≥ 0 pour tout −1 v −1 u ∈ U et v P = u∈U xu u P . Maintenant. b(11). 9 aaa(5). s}. U. Il sut d'appliquer (1). Si a et b sont deux lettres distinctes de Σ . aaaa(4). b} est pulvérisé par A. aa(9). Sn . baa(1). xaa = 1 . xaa = 1 puisqu'on a aa−1 P = ε a b 2 2 1 −1 P + 1 b−1 P et de même sol (E (ba. ba(4). Supposons que u1 soit le plus petit : il n'y a pas de mot w tel que wΣ ∗ ∩S = {r. δ) = δ (2 − log 4 ). 1−δ nous avons. Soit P une distribution de probabilités sur X et soit Sn un échantillon contenant n éléments de X indépendamment générés selon P . avec une probabilité supérieure à 1 − δ . aaaaaa(1). u−1 P est déni. u−1 Pn soit déni. ε a b 2a 2 Soit S un échantillon associé à P et soit S20 composé des 20 mots générés avec répétitions (le nombre entre parenthèses correspond au nombre d'occurrences) : b(7). tels que Dénition 1. Exemple 1. b} . r et t. aaaa(3). Il peut être montré [22. a. Donc. U ∪{v} un ensemble ni de mots ∀u ∈ U ∪ {v}. u3 ) le plus grand préxe commun de r et s (resp. Soit u1 (resp. |Pn (Ai ) − P (Ai )| ≤ c VC(A)−log n c2 2 δ 4 (1) où c est une constante universelle. P )) = ∅. Soit Ψ1 ( . xba = 0. P )) = xba = 0. . Démonstration. aaaaaaa(1). On dénit le système I(v. Soit S un échantillon stochastique de P . s et t). On a alors sol (E (a. U. u2 . Aucun sous-ensemble contenant plus de deux éléments ne peut être pulvérisé. t ∈ Σ ∗ et soit S = {r. {ε} .par A mais qu'aucun ensemble contenant deux éléments ne peut être pulvérisé. t}. On a Pn (aΣ ∗ ) = 20 . Soit P un langage stochastique. {ε. nous avons pour tout i ∈ I . a.

soit E seront solutions des systèmes I. nous avons ≤ comme n ≥ 2k/p.. Pn (bΣ ∗ ) = 11 20 Lemme 2. nous avons P Yn − p ≤ − = n ln δ −2n 2 P (Yn ≤ n(p − )) ≤ e pour tout > 0. −2(ln δ)/p ) alors avec une probabilité supérieure à Lemme 3. b} . U. sol I {a} . çant par Lorsque l'échantillon contient un nombre susant de mots commen- U . b}. 1 . 1 9 8 −1 ∗ l'inéquation associée au mot a est : |aa Pn (aΣ ) − u∈{ε. m = Card (U ∪ {v}). alors. δ. P )) ⊆ sol (I(v.. P ) seront des solutions du système I(v. a. les solutions des systèmes Plus formellement. b} . alors avec une probabilité contrôlée. nous avons pour tout mot w. {ε} . α. P ). a. Comme n ≥ −2(ln δ)/p2 . ).n} des variables aléatoires indépendantes suivant des n lois de Bernoulli de même paramètre p > 0. 8 et nalement nous ε a b avons {xaa = 0. D'après le lemme 1. U ∪ {v} un ensemble ni de mots. xaa = 0. )). P un langage stochastique. Lorsque l'échantillon est susamment grand. nous avons Yn ≥ k . Démonstration. {ε. S20 . 2m p − 2(−2ln δδ) = p/2 et ln 2 δ /α. nous avons k ≤ n p − p ≤ n(p − ). Sn .. S20 . les soluE(u. Nous avons e−2n 2 = δ . {ε. 508} ∈ sol I {aa} . avec un probabilité supérieure à 1−δ . avec une proba- bilité contrôlée. 8 = sol I {b} . Alors. Pour I aa. xba = 0. a} . U. Par l'inégalité de Hoeding. P ) alors u u∈U xv = u v −1 Pn (wΣ ∗ ) − u∈U xv · u−1 Pn (wΣ ∗ ) u ≤ v −1 Pn (wΣ ∗ ) − v −1 P (wΣ ∗ ) + u∈U xv u−1 Pn (wΣ ∗ ) − u−1 P (wΣ ∗ ) u pour tout w ∈ Σ ∗ . δ > 0. U. nous avons u−1 Pn (wΣ ∗ ) − u−1 P (wΣ ∗ ) ≤ 2 pour tout mot w. {ε. b−1 Pn (aΣ ∗ ) = 11 . 492. b} . Soit = − 2n . U. 2 Dénissons Ψ ( .b} xaa u−1 Pn (aΣ ∗ )| u 9 4 ≤ . U. v −1 Pn (wΣ ∗ ) − u∈U xv u−1 Pn (wΣ ∗ ) ≤ 2 + u∈U xv 2 = pour tout (xv )u∈U u u u solution du système E(v. −2 ln 2m /α2 . Si n ≥ sup(2k/p. 1 = ∅. {ε. Plus formellement. Nous avons P ∩u∈U ∪{v} Au = 1 − δ P ∪u∈U ∪{v} Au ≥ 1 − u∈U ∪{v} p Au ≥ 1 − m m = 1 − δ . pour tout u ∈ U ∪ {v}. 8 1 xba = 0. m) = sup 2Ψ1 δ 2 . et par tout mot de tions du système Démonstration.4 . S20 . Card(u Sn ) ≥ Ψ1 ( /2. Soit Au cet évènement. S20 . Donc avec une probabilité supérieure à 1 − δ . P ). c'estε a b 8 à-dire des résultats proches de ceux obtenus avec E(aa. a. a. δ > 0 et soit 2 k ∈ IN. Suppo−1 sons qu'il existe un entier n tel que ∀u ∈ U ∪ {v}. 1 − δ. {ε. U ∪ {v} un ensemble ni de . xba = 1 ∈ sol I {ba} . soit P un langage stochastique. b}.a. S un échantillon stochastique de P . δ/m). v 1 et Soit (xv )u∈U une solution du système E(v. Soit Yn = i=1 Xi .. a−1 Pn (aΣ ∗ ) = 9 . Lemme 4. > 0. sol (E(v. S20 . {ε. U. avec une δ probabilité supérieure à 1 − m . a. P ) et E(ba. ε a 9 b 9 8 1 En particulier. xaa = 0. Soit (Xi )i={1. Sn . c'est-à-dire 5 − xaa 20 − xaa 9 − xaa 11 ≤ 1 .

il existe un entier N n∈IN δn < ∞. U. Sn . U. )). m).a.u = u−1 PA . εn ) sera noté par In et E(U. 1 admettent des solutions. La probabilité pour que ∀v ∈ fr (U. n ≥ Ψ Démonstration. a} . x ∈ Σ. ux ∈ U. )). P ) admet une solution est équivalent à dire que pour tout mot v ∈ fr (U. αn → 0. Sn . Sn . pour tout mot rapport à Soit u de P par : P un langage stochastique et U un ensemble préxiel tel que U . δ. U. An se produit. Si n ≥ Ψ (ε. mots. ( n )n∈IN . δ n = 1 1 n2 et mn = kn = n. Nous dénissons la frontière de U par fr (U. (mn )n∈IN et (kn )n∈IN δn < ∞. du lemme δ 2 nous déduisons qu'avec une probabilité d'au moins 1 − 2 . (δn )n∈IN . Card(u−1 Sn ) ≥ Ψ1 ( 2 . Lemme 5. S un échantillon stochastique de P . PA. mn → +∞. sol (E ({ε} . sol (E(v. b} . b} . ε)) est supérieure à k δ 1 − i=1 k = 1 − δ . Jusqu'à la n de l'article ( n )n∈IN . Sn . U. a. 8 W = fr (U. k n . I (U. (ux)−1 P est déni . la probabilité δ pour que sol (E(v. P ). / E(v. P ) admet une solution alors. nous avons que pour chaque Dénition 2. U. Soit P le langage généré par le PRFA de la gure 1. En utilisant le lemme précédent. (kn )n∈IN et (mn )n∈IN seront des suites qui posséderont les propriétés du lemme précédent. pour tout mot v de fr (U. P )) sol (I(v. α = min {P (vΣ ∗ ) | v ∈ W }. Démonstration. Donc cette propriété est vraie pour tout u ∈ U ∪ {v} avec une probabilité supéδ rieure à 1 − 2 . m = δ Card(W ).Pn ) I(v. a. m n . E(v. ε)) est inférieure à k . sol (E(U. a} . U. Par exemple αn = = n− 4 . αn . P ). 1 = ∅. P ) par E . U. m = Card(U ∪ {v}). Et on remarquera que E(U. α. Note 1. Sn . et Maintenant. E ({ε. b} . Proposition 2. (αn )n∈IN . ba}. aa}. Sn . δ > 0. fr ({ . sol (E ({ε. U. sol (E(v. avec une probabilité supérieure à 1− 2m . U. P )) = sol I {ε} . de [Borel-Cantelli] Soit (An )n∈IN où une suite d'évènements de probabili- tés supérieures ou égales à 1. P ) ∪ U . ) = v∈fr(U. P )) ⊆ sol (I(v. P ) fr ({ } . P ) et I {ε. ). Sn . )) ce qui permet de conclure. 1 8 = {b. Sn . kn → +∞ et il existe n∈IN δn n . Dans le cas où toutes ces inéquations sont satisfaites. considérons les systèmes d'inéquations suivant : E(U. Soit Démonstration. Si n ≥ Ψ ( . alors : = ∅. Lorsque le contexte ne sera pas ambigu. P )). (δn )n∈N . fr ({ . Alors avec une probabilité tel que pour tout n > N . a. δ δ u ∈ U ∪{v}. telles que un n Il existe des suites → 0. n N tel que ∀n > N. P )) = sol I {ε. P ). U. Lemme 6. On verra dans la suite que si E(U. Sn . 1 − δn . α. P ). D'après le lemme 4. Sn . P ) = v∈fr(U. k . P ) admet une solution. > 0 et δ > 0. m) alors avec une probabilité d'au moins 1 − δ . U.P ) I(U. Sn . a} . P )) ⊆ sol (I(v. sol (E(v. b}. on peut construire un PRFA A qui génère P avec U comme ensemble d'états et tel que ∀u ∈ U. alors avec une probabilité supérieure à 1 − δ . k = Card(fr (U. (αn )n∈IN . P )) ⊆ sol (I(v. P ) = ux | u ∈ U.α = min {P (uΣ ∗ ) | u ∈ U ∪ {v}}. Supposons α > 0. > 0. u−1 P est déni. Exemple 2. P ) = 8 {aa. P )) ⊆ sol (I(U. P ) = {a. 2m ).

dans la première nous calculons les états du PRFA. tèmes Avec une probabilité un.2 L'algorithme principal L'algorithme principal se divise en trois parties .σ(n) Pσ(n) (wΣ ∗ ) u∈U xu v ∗ u∈U xu P (wΣ ) − + xu v. u u v −1 P (wΣ ∗ ) − u∈U u∈U xv P (wΣ ∗ ) ≤ v −1 P (wΣ ∗ ) − v −1 Pσ(n) (wΣ ∗ ) + |v −1 Pσ(n) (wΣ ∗ ) u v. Il est clair que sol (E (Pm (P ) . U tel que ∀u ∈ U . Algorithme 1 DEES Entrée : Un échantillon stochastique Sn de taille n. Q ← calculeEtats (Sn ) renvoie construitPRFA (Q. sol (I (U. avec probabilité 1. Sortie : Un PRFA préxe A = Σ. ∃n ≥ N tel que I(U. Soit φ : IN → IN telle que φ(n) ≥ n et I(U. u−1 P est déni. Remarque 1. τ . Plus formellement. Sn )) ⊆ sol (I (U. Sn )). Avec probabilité 1 tous les termes u tendent vers 0 . on peut en extraire une sous-suite convergente (xv. La preuve se déduit de la proposition 2 et des lemmes 5 et 6. εn )). Sn . Démonstration. pour tout U tel que ∀u ∈ U . u−1 P est existe un N tel que pour tout Lemme 8. sol (E(U. E admettent une solution. φ(n) ) ait une solution v. P ). n ) ait une solution. Soit Prem (P ) l'ensemble des mots u tels que u−1 P soit premier et qu'il n'existe pas de mot v < u tel que v −1 P = u−1 P . on se contentera d'un . il N tel que pour tout n > N . 1.σ(n) Pσ(n) (wΣ ∗ )| + − u∈U xv Pσ(n) (wΣ ∗ ) u xv Pσ(n) (wΣ ∗ ) − . On dénit Pm (P ) l'ensemble des mots u tels que u ≤ max (Prem (P )) et u−1 P est déni. ϕ.σ(φ(n)) ). Sn . Sφ(n) . n )) = ∅. Pm (P ) est un ensemble préxiel. Démonstration. il existe une étape après laquelle les solutions des systèmes E ensemble ni de mots sont des solutions des systèmes In . P )) = ∅ et que pour tout ensemble U = {u < v} où v < max (Pm (P )).σ(φ(n)) ) de limite (xv )u∈U . calculeTranstions (Q. Pour tout ensemble ni de mots dénit et sol (E (U. il Supposons que ∀N ∈ IN. le premier et le quatrième d'après le lemme 1. le second est inférieur à σ(φ(n)) et le troisième terme par hypothèse de convergence de (xv. u u∈U 4. dans la seconde nous recherchons les transitions et à la n nous construisons le PRFA en fonction des données obtenues. il existe une étape après laquelle les sys- In n'admettent une solution que si les systèmes probabilité Plus formellement. Q. avec n > N .Lemme 7.φ(n) (xu )u∈U . u D'où (xv )u∈U est une solution de E(U. alors sol (E (U. P )) = ∅. existe un Avec probabilité un. P )) = ∅. ι. Sn . Comme nous nous intéressons seulement à un résultat d'identication à la limite. 1]Card(U ) . Notre algorithme va renvoyer un automate dont l'ensemble d'état sera Pm (P ). Comme les solutions appartiennent au compact [0.

Q ← {ε} . u) ∈ Q × Σ × Q. Sn . u u Dénition 4. Q. Soit zu = (xu − yu ) / yu0 − xu0 dénie pour tout u ∈ U \ {u0 }. Q. ϕ(v.a). n )) = ∅ et fr (Q. / Remarque 2. Entrée : Un échantillon stochastique Sn de taille n. P ). ϕT . u) ∈ Q × Σ × Q. u) = 0 ssi u est un mot du plus petit sous-ensemble de Pm (P ) (par rapport à ) tel que ∃(xva )u∈U suite réelle positive. On a γ0 > 0 et au moins un terme γ0 xj + (1 − γ0 ) βj = 0 ce qui contredit l'hypothèse de minimalité. a. Démonstration. / Dénition 3. et tels que v −1 P ∈ conv u−1 P | u ∈ Pm (P ) et u < v . Pn ) retourne Q Algorithme 2 calculeEtats . (Cf. Pour cela. gure 1. a. Soit va ∈ fr (Pm (P ) . Le PRFA préxe réduit de P est le PRFA préxe associé à P . u) = 0 si et seulement si va = u ou si va ∈ Q. τ dont l'enι (ε) = 1. (va)−1 P = u∈U xva u−1 P . Il sut de montrer l'unicité. ∀(v. Sortie : un ensemble préxiel de mots. Un PRFA / préxe associé à P est un PRFA préxe qui génère P (Cf. semble d'état est un ensemble préxiel de mots et tel que A = Σ. En pratique l'algorithme que nous utilisons renvoie un automate dont l'ensemble d'états est Pm (P ) déni récursivement comme l'ensemble des mots v tels que v −1 P soit déni.a). ϕT (v. max(U ) = max(V ) et U \ max(U ) V \ max(U ). ι. Le PRFA préxe réduit de P est unique et génère P. 1] le plus petit γ tel que tous les coecients soient positifs. On dénit la relation sur deux ensembles nis de mots U et V par.(va)−1 P = u −1 va xva u−1 P . En revanche. tous les cou∈U u∈U \{u0 } zu u ecients sont strictement positifs par hypothèse. U V si et seulement si U = ∅ ou max(U ) < max(V ) ou. tant que sol (I (Q. On montre aisément que est un ordre total. Pour γ = 0 il y a au moins un coecient négatif sans quoi cela contredirait l'hypothèse de minimalité. a. Pn ) = ∅ faire Q ← Q ∪ min fr (Q. gure 1. On remarque que pour tout (v. si va ∈ Q. a. On a alors u−1 P = u∈U \{u0 } zu u−1 P . τ tel que pour tout va ∈ fr (Pm (P ) . v) n'est pas déterminé par P . Un est un PRFA PRFA préxe Soit A = Σ. τ un PRFA préxe associé à P . Supposons que l'on ait (va) P = u∈U xva u−1 P = u∈U yu u−1 P u u∈U u va va va va va va et xu0 = yu0 pour u0 ∈ U . Lorsque γ = 1. Proposition 3. ϕ. a.tel ensemble. il faut démontrer que les valeurs des transitions sont déterminées par P . ι. La preuve que le PRFA préxe réduit génère P est donnée dans [19]. T = Σ. alors ϕ(u. a. P ) et U le plus petit sous-ensemble de Pm (P ) tel que ∃(xva )u∈U suite réelle positive. On a (va)−1 P = 0 m −1 γ xu u−1 P + (1 − γ) P . Pm (P ) . Soit γ0 ∈ [0. ι. ϕ. u) = P (vaΣ ∗ )/P (vΣ ∗ ) si u = va. ϕ(v.

un échantillon stochastique Sn de taille n. n ) ∪ C ∪ {xv = 0}) = ∅ alors C ← C ∪ {xv = 0} u u fin tant que fin tant que. en particulier celles qui satisfont C . il existe un entier N tel que ∀n > N . Alors il est clair en utilisant la proposition 4 et le lemme 9 avec probabilité 1 après un certain rang. sol (E ∪ C) = ∅ ⇔ sol (In ∪ C) = ∅. pour tout u ∈ Q. tant que U = Q faire u = max (Q \ U ).U = ∅. Soit U un ensemble ni de mots. est solution de In à partir d'un certain rang. P ) et In = I(U.Pn )×Q . ιT . Avec probabilité 1 à partir d'un certain rang. u . a. Pm (P ) . V = ∅. après un certain rang DEES renvoie un PRFA dont le support est celui du PRFA préxe réduit. n ) ∪ C) = ∅ alors retourne (xv ) ∈ sol (I(Q. On pose E = E(U.u)∈fr(Q. Pn ) \ V ). renvoie Avec une probabilité un.U ← U ∪ {u} Si sol (I(Q. Sn . U ⊆ U et soit C = {xv = 0 | u ∈ U } u un ensemble d'équations. Sn . toute solution de E . ϕT . des arguments analogues à ceux du lemme 8 montrent que E ∪ C admet aussi des solutions. T ϕ (w. l'invariant de boucle suivant est vérié (dans la boucle interne) : Soit w ∈ Σ ∗ et a ∈ Σ tels que v = wa.Proposition 4. tant que V = fr (Q. Si sol (I(Q. tel que u ≤ max U . Démonstration. avec probabilité un. Sn . u) = 0 ⇐⇒ {xwa = 0} ∈ C . Soit U Pm (P ) alors. d'après la remarque 1 et le lemme 8. n ). Avec probabilité un. Pn ) faire v = min (fr (Q. D'après la remarque 1 et le lemme 7. Sn . Si pour tout entier N . u C = ∅. Sortie : une suite (xv )(v. n ) ∪ C) u sinon retourne la suite identiquement nulle. il existe n ≥ N tel que In ∪ C ait des solutions. l'algorithme calculeEtats Pm (P ). avec une probabilité un. Pour prouver la convergence de calculeTransitions nous avons besoin du lemme suivant : Lemme 9. Cela prouve l'implication de la droite vers la gauche. Proposition 5. il existe un entier N tel que ∀n > N .V ← V ∪ {v}. après un rang N . calculeEtats(Sn ) renvoie Pm (P ). τ T le PRFA préxe réduit associé à P . calculeEtats(Sn ) ne renvoie pas U . soit Démonstration. Démonstration. Algorithme 3 calculeTransitions Entrée : Un ensemble préxiel Q. D'après le lemme 7. Soit T = Σ.

u)∈fr(Q. u) ∈ fr (Q.u ) Fin si 5 Convergence vers le PRFA préxe réduit Théorème 1. nous avons ∀(wa. Soit v ∈ fr (Pm (P ) . soit A le PRFA préxe réduit de P 1. ϕ. τ sinon Soit (0)v. Sn . a.Pn )×Q . u) = xva v −1 Pn (aΣ ∗ ) u Fin si Si A est un PFA alors retourne A = Σ. un échantillon stochastique Sn de taille n. va) = v −1 Pn (aΣ ∗ ). a. Il est clair qu'avec probabilité 1. ι(ε) = 1 Pour tout u ∈ Q faire τ (u) = Pn (u)/Pn (uΣ ∗ ). probabilité de structure est convergent Soit P un langage stochastique générable par un PRFA. u) ce qui par signie clairement que le support du PRFA A renvoyé par DEES sera égal au support du PRFA préxe réduit qui génère P . Par la proposition 3. u Sortie : un PRFA préxe A = Σ. u) = 0. Si la suite (xv ) n'est pas identiquement nulle alors u pour tout couple (va. τ . u) ∈ fr (Pm (P ) . la suite des automates An construit par DEES possède le même support que A. P ) et v −1 P = u∈U xv u−1 P où U est u l'ensemble des mots u ∈ Pm (P ) et tel que la contrainte {xv = 0} n'apparu tiennent pas à C . Pn ) × Q où a ∈ Σ faire ϕ(v. Pour tout (v. a. (0)v. ϕ. Q.En particulier en sortie des deux boucles imbriquées cette propriété est vraie pour tout couple de fr (Pm (P ) . u) = 0 ⇔ ϕ(w. a. il est clair que (xv )u∈U est une soluu tion unique. v −1 P (wΣ ∗ ) = u∈U xv u−1 P (wΣ ∗ ) avec u les xv ≥ 0. les valeurs portées par les transitions des An vers celles portées par les transitions de A. P )×Pm (P ) puisque Q = Pm (P ). . Par construction (construit_PRFA). Avec probabilité 1. a. Q. une suite (xv )(v. a. va) ∈ Q × Σ × Q faire ϕ(v. Soit W un ensemble minimal de mots tel que (xv )u∈U soit aussi u l'unique solution du système ∀w ∈ W. a. Pour tout (v. il existe un N tel que ∀n ≥ N . u Démonstration. DEES retourne à partir d'un certain rang un PRFA An dont la A. ϕT (w. et soit S un échantillon stochastique de P. P )×Pm (P ). limn→∞ v −1 Pn (aΣ ∗ ) = v −1 P (aΣ ∗ ) pour tout va ∈ Q. ι. Algorithme 4 construitPRFA Entrée : Un ensemble prexiel Q. avec probabilité 1. u) ∈ Q × Σ × Q faire ϕ(v. Avec une D'après la proposition 5.u la suite identiquement nulle retourne construitPRFA(Préxes (Sn ) . ι.

or Q possède une taille polynomiale en la taille de Sn (nombre de préxes de Sn ).w∈W et En des vecteurs colonnes dont tous les éléments sont de valeur absolue inférieure à n d'où En = O ( n ). Donc calculeTransitions est une fonction polynomiale en la taille de Sn . le lemme 5 et le lemme 6 qu'avec probabilité 1. une complexité identique à celle des algorithmes d'inférence de PDFAs. . en moyenne. . il existe un rang après lequel Wn est inversible. Vn − Wn Xn = En .w∈W . Comme avec probabilité 1. La fonction construitPRFA fait un test pour savoir si l'automate renvoyé est un PFA. Il est clair d'après la proposition 2. La fonction calculeTransitions possède deux boucles imbriquées. lui-même polynomial dans la taille de Sn . et que le déterminant est une fonction continue. Considérons Wn = W + Un = W 1 + W −1 Un . On a donc : −1 −1 −1 −1 Wn Vn − Xn = Wn En d'où Wn Vn − Xn ≤ Wn O ( n ). On a donc : −1 −1 X − Xn = W −1 V − W −1 Vn + W −1 Vn − Wn Vn + Wn En −1 −1 ≤ W −1 V − W −1 Vn + W −1 Vn − Wn Vn + Wn En ≤ −1 W −1 + Vn + Wn O ( n) = O ( n) . nous ne détaillons pas plus sa complexité. L'opération à l'intérieur des deux boucles est aussi une résolution de système d'équations. Étant donné que l'algorithme que nous avons utilisé pour prouver le résultat de convergence à la limite possède une complexité plus élevée que l'algorithme que nous utilisons en pratique.1 Complexité La fonction calculeEtats est une boucle dont le nombre maximal d'entrées sera le nombre de préxes de mots de Sn . W −1 d'où 2 −1 W −1 − Wn = O Un W −1 . . les u matrices Wn = u−1 Pn (wΣ ∗ ) u∈U. Xn = [xv. limn→∞ Wn = W . Ce test peut se réaliser en temps polynomial sur le nombre d'états [4]. Il est clair que W est une matrice carrée inversible et on a X = W −1 V . ce qui lui donne. la matrice u W = u−1 P (wΣ ∗ ) u∈U. on doit résoudre un système d'inéquations linéaires ce qui est un problème polynomial dans la taille du système. On a avec probabilité un après un certain rang.n ]u∈U . 5. Puis la construction est clairement polynomiale en fonction du nombre d'états si le test est vrai et sinon le nombre d'opérations est polynomial dans la taille de Sn . Soient Vn = v −1 Pn (wΣ ∗ ) w∈W .Soient les vecteurs V = v −1 P (wΣ ∗ ) w∈W et X = [xv ]u∈U . On entrera donc un nombre polynomial de fois à l'intérieur des deux boucles. En pratique l'utilisation de l'algorithme du simplexe nous permet de résoudre les systèmes d'inéquations en temps linéaire. d'où nous obtenons que −1 −1 Wn = 1 + W −1 Un W −1 = 1 − W −1 Un − (W −1 Un )2 − . avec probabilité 1. il existe un rang après lequel V − Vn = O ( n ) et Wn − W = O ( n ). La taille de la frontière d'un ensemble de lettre est polynomial dans la taille de cet ensemble. À chaque étape.

m ≤ n ≤ qn.m pn. an ] = pn . on dénit les suites (xn ) et (an ) par x0 = x.m n. On 2 q n n.m n.m rang. Soit les développements de yn en fractions continues.m n.m . D'autre part.m 1 . alors il existe un entier N pour lequel x= pN qN 1 1 2 qn qn+1 < qn . il qn. tant bien sûr que ces termes sont dénis.m première fraction pn. . On a aussi x − pn. si les arêtes portent des valeurs rationnelles. q Lemme 10. .m vériant cette inégalité. n tant que ces termes sont dénis. il n'existe qu'un nombre ni de rap p A tionnels q vériant x − q ≤ q 2 . On montre facilement que [a0 . dès que n est assez petit ( n < 2b2 ) .M existe un entier N tel que pour tout n ≥ N . . x un raune suite de rationnels vériant |x − yn | ≤ n à partir d'un certain pn. supposons que l'on ait yn − pn. Lemme 11.M pn. p1 = a1 a0 + 1. on notera [a0 . s'il en existe. q1 = a1 . n<N alors x− pn qn ≤ Soient ( n ) une suite de réels positifs convergent vers 0.m 1 Soit x = a .6 Identication à la limite de la classe des PRFAs rationnels On veut maintenant montrer qu'il existe une méthode pour trouver la valeur exacte des transitions avec probabilité 1. .m .m . qui vérie yn − pn. que x = pn. Alors. dès que n ≤ 2b2 d'après le lemme 10. Soit zn la n.m qn. alors il existe M tel que b = q M . . .m tionnel. an = xn et xn+1 = 1/(xn − an ).m 1 2 n . .m pn.m 1 et est la seule fraction q qui vérie yn − q ≤ n ≤ q2 . 6.m ≤ q q pn. . .m ≤ |x − yn |+ yn − pn.m . M Pour tout entier A et tout rationnel x. Si a0 . il existe M tel que x est égal à q n. n.m .m en déduit que x − pn. an sont des nombres entiers. On dénit alors deux suites (pn ) et (qn ) de nombres entiers par p0 = a0 . .m ≤ q q existe un rang après lequel la suite (zn ) est constante égale à x. an ] = a0 + 1/ (a1 + 1/ (· · · (1/an ) · · · )) .1 Approximations d'un nombre réel par des fractions continues Tout nombre réel peut être représenté par un développement en fractions continues (tous les résultats mentionnés ci-dessous peuvent être trouvés dans [24]). Donc. .m n. Dans [18] les auteurs utilisent une méthode basée sur les arbres de Stern-Broco pour identier les transitions d'un PDFA cible. n ≤ 1 2 qn.m nombre ni de fractions pn.m n. Il n'existe qu'un n. . il existe m tel b n. et si Si x est rationnel. Il . p a a 1 a Si b est une fraction telle que b − x < 2b2 . Si x est un nombre réel positif. on a x = qn. qn+2 = an+2 qn+1 + qn pour n ≥ 0. pn+2 = an+2 pn+1 + pn et q0 = 1. (yn ) Démonstration. Nous utilisons ici la méthode des fractions continues.m ≤ 2 q q ≤ 2 2 qn.

Il sut alors de rechercher la n.m = ϕ(t). Références 1. Denis. On considère ϕ la fonction de transition du PRFA préxe réduit associé à P et ϕn la fonction transition renvoyé par DEES à l'étape n. l'espace et l'évolutif . 1. A. D.. Academic Press. L'algorithme est implémenté et des expérimentations sont en cours. g4 = 1 . : Maximum likelyhood from incomplete data via the em algorithm. on a g3 = 1 . Théorème 2. : Some relations among stochastic nite state networks used in automatic speech recognition. z5 = 1 . Esposito.m ≤ n ≤ q12 où ϕn (t) = q q pn. Rubin. N. : Modèles de Markov cachés et apprentissage de séquences. Warmuth. Paz. on sait qu'à partir d'un certain rang on aura qn. O. z6 = 1 et z7 = 1 à partir de n = 7...m qui vérie ϕn (t) − pn. F. nous pouvons espérer obtenir de meilleurs résultats pratiques. : Introduction to probabilistic automata. Journal of the Royal Statistical Society 39 (1977) 138 . g5 = 10 . In : Le temps.B..m première fraction continue pn. : Links between probabilistic automata and hidden markov models : probability distributions.m p q et d'après le lemme 11. Étant donné que les PRFAs sont plus expressifs que les PDFAs. On a z4 = 1 . : On the computational complexity of approximating distributions by probabilistic automata. Il existe un algorithme qui pour tout un langage stochastique P générable par un PRFA rationnel. Casacuberta. Technical Report RR 2003-02. Le premier entier n pour lequel gn − qn. Y. On sait que |ϕn (t) − ϕ(t)| ≤ n à partir d'un certain rang. Bréhélin.M.m ≤ n ≤ q12 admet des solutions est n = 4. Dempster. Soit n = o ( n ) et limn→∞ = 0. avec une probabilité de préxe réduit associé à Démonstration. A.m 5 1 g7 = 14 . Si gn = 1 2 − 1 n et n = 1 n Un PRFA sera dit rationnel si le PRFA préxe réduit associé au langage stochastique qu'il génère ne possède que des valeurs rationnelles sur les transitions. Dupont. 6 4 3 pn. L. 4 3 3 2 Exemple 3. P. Gascuel. 7 Conclusion Nous avons montré que l'ensemble des PRFAs à paramètres rationnels sont identiables à la limite avec une probabilité de 1. (2000) 6. g6 = 1 . M.Ecole thématique Document et Evolution. On sait que |ϕn (t) − ϕ(t)| = O ( n ). N.. F. London (1971) 2. UCL (2003) 5. IEEE Transactions on Pattern Analysis and Machine Intelligence 12 (1990) 691695 3. Abe.3 .m n.. renvoie le PRFA P. Machine Learning 9 (1992) 205260 4. Laird. learning models and induction algorithms.

6th International Colloquium on Grammatical Inference. In : IEEE Symposium on Foundations of Computer Science.. : Bioinformatics : The Machine Learning Approach. Esposito. A. Freitag. In : Principles of Nonparametric Learning. Bergadano. Bshouty.. F. : On the applications of multiplicity automata in learning.H. Kushilevitz. RAIRO (Theoretical Informatics and Applications) 33 (1999) 120 18. Varricchio. C..D. F. S. Goldman. : Characteristic sets for polynomial grammatical inference.H. R. LNAI... J. : Learning functions represented as multiplicity automata. Machine Learning 27 (1997) 125137 16. Volume 1891 of Lecture Notes in Articial Intelligence.. MIT Press (1998) 8. J. P. : Learning regular sets from queries and counterexamples. Beimel. : Information extraction with HMM structures learned by stochastic optimization.. Springer (2002) 156 24. Fundamenta Informaticae 51 (2002) 339368 21. : Learning stochastic regular grammars by means of a state merging method. : Pattern classication and learning theory.. John Wiley (1998) 23. Varricchio. In : International Conference on Grammatical Inference. F. P. Journal of the ACM 47 (2000) 506530 12. : Learning deterministic regular grammars from stochastic samples in polynomial time. (1996) 349358 11. Oncina.. : Learning probabilistic residual nite state automata. A. McCallum. Terlutte... Oxford University Press (1979) . G. : An introduction to the theory of numbers. Oncina. E. Valiant. Thollard. In : Italian Conference on Algorithms and Complexity. ACM 27 (1984) 11341142 13. : Learning behaviors of automata from multiplicity and equivalence queries. S.C. Carrasco. : Residual languages and probabilistic automata. Y. In : AAAI/IAAI. Vapnik. Angluin.. E. Carrasco. S. A. Lugosi. Journal of Computer and System Sciences 52 (1996) 255267 15. A.. Lemay. In : ICGI'2002. : Residual Finite State Automata. Lemay. F. R. D. Baldi. Denis. G. : Statistical Learning Theory. Kushilevitz. F.N. : Identication in the limit with probability one of stochastic deterministic nite automata. Wright. S.. In : to appear in Proceedings of ICALP2003. Esposito. de la Higuera.M. : Teaching a smarter learner.. N. Bergadano. Springer (2000) 141156 19. A. H.. Heidelberg. (2003) 22.H. : A theory of the learnable.. Springer Verlag (2002) 20. Dupont.. A. (1994) 10. Y. Bergadano.. Denis. Brunak. F. V. Varricchio.. E. L. Mathias. Bshouty. F.7. Commun. D.. Denis. N.. Hardy.. C. Beimel. Springer-Verlag (1994) 139152 17. S. (2000) 584589 9. Information and Computation 75 (1987) 87106 14. de la Higuera.A.

Sign up to vote on this title
UsefulNot useful