Main

From Wiki du projet-action Khronos
Jump to: navigation, search

Projet-action Khronos

Labex Persyval, action Advanced Data Mining

The deluge of data we are witnessing in recent years overturns the traditional view of science and information technology, in particular in statistical machine learning. In many real problems, especially related to the web, but not only, massive data streams are continuously produced. This is for example the case of new types of data describing the dissemination of information in social networks (social dynamics), the organization of textual content in blogs (topic models), the various human activities in videos (human action recognition), collaborative filtering or the curves of electrical consumption in electrical networks.

Beyond their sequential nature, these data may have a complex internal structure, such as those describing the lines of electric consumption or for which the basic assumption in machine learning stating that the observations are identically and independently distributed (iid) from a fixed probability distribution is no longer verified .

The Khronos project aims to :

  • establish a new theoretical learning framework in order to take into account the sequential nature of interdependent and non-identically distributed data ;
  • develop new tools to measure the similarity between objects ;
  • develop new models and learning algorithms working on this kind of examples and can be scaled up.

Le déluge de données (big data) auquel nous assistons ces dernières années bouleverse la vision traditionnelle en sciences et technologies de l'information, et en particulier en apprentissage statistique. Dans de nombreux problèmes réels, en particulier associés à la toile mais pas seulement, un flux massif de données est produit continuellement. C'est par exemple le cas des nouveaux types de données décrivant la diffusion d'information dans des réseaux sociaux (social dynamics), l'organisation des contenus textuels dans les blogs (topic models), les différentes activités humaines dans les vidéos (human action recognition), ainsi que les goûts des utilisateurs (collaborative filtering) disponibles sur la Toile, ou, les courbes de consommation électriques dans les réseaux électriques.

Au-delà de leur caractère séquentiel, ces données peuvent avoir une structure interne complexe, comme celles décrivant les courbes de consommation électriques, ou pour lesquelles l'hypothèse fondamentale en apprentissage automatique stipulant que les observations sont identiquement et indépendamment distribuées (i.i.d.) suivant une distribution de probabilité fixe, n'est plus vérifiée.

Le projet action Khronos vise à

  • établir un nouveau cadre théorique d'apprentissage statistique automatique afin de prendre en compte la nature séquentielle, interdépendante et non-identiquement distribuée des données ;
  • développer de nouveaux outils capables de mesurer la similarité entre les objets ;
  • concevoir de nouveaux modèles et algorithmes d'apprentissage travaillant sur ce type d'exemples et capables de passer à l'échelle.