Modélisation de la rubrique


Original: http://www.cs.princeton.edu/~blei/topicmodeling.html

 

pictureModèles de thème sont une suite d’algorithmes qui découvrent la structure thématique cachée dans les collections de documents. Ces algorithmes de nous aident à développer de nouvelles façons de rechercher, de parcourir et de résumer les grandes archives de textes.

Ci-dessous, vous trouverez des liens vers des matériaux introduction, navigateurs de corpus basées sur des modèles de thème et logiciels libres (à partir de mon groupe de recherche) pour la modélisation de la rubrique.

 

Matériaux introduction

Navigateurs de corpus basées sur des modèles de thème

La structure non couvert par les modèles de thème peut être utilisée pour explorer une autre collection non organisée. Voici les navigateurs des grandes collections de documents, construits avec les modèles de la rubrique.

Lien modèle/algorithme langage auteur Notes
lda-c Latent Dirichlet allocation  C D. Blei Ce implémente inférence variationnelle pour LDA
class-slda  Supervised rubrique modèles de classification C++ C. Wang Wang Implements supervisé des modèles de thème avec une réponse catégorique.
lda R paquet pour Gibbs d’échantillonnage dans beaucoup de modèles R J. Chang Implements plusieurs modèles et est rapide. Prend en charge les LDA, SMTr (pour les documents en réseau), la MMSB (pour les données de réseau) et sLDA (avec une réponse en continu).
online lda Inférence en ligne pour les modèles de thème LDA Python M. Hoffman La démo téléchargements articles Wikipedia au hasard et correspond à un modèle de rubrique pour eux.
online hdp Inférence en ligne pour les HDP Python C. Wang Wang correspond à Dirichlet processus rubrique modèles hiérarchiques de données massives. L’algorithme détermine le nombre de sujets.
tmve (online) Tpaquet de rubrique modèle visualisation moteur Python A. Chaney A (en ligne) pour créer des navigateurs de corpus. Voir, par exemple,  Wikipedia .
ctr Collaborative pour recommandation inférence variationnell C++ C. Wang Wang Implements pour des modèles de collaboration sujet. Ces modèles vous recommandons éléments aux utilisateurs basés sur le contenu de l’élément et les cotes des autres utilisateurs.
dtm modèles dynamiques rubrique DTM et le modèle d’influence C++ S. Gerrish Ce implémente des thèmes qui changent au fil du temps et un modèle de documents individuels comment prédisent ce changement.
hdp Dirichlet hiérarchique traite C++ C. Wang Topic les données déterminent le nombre de sujets. Elle implémente Gibbs sampling.
ctm-c Correlated topic models C D. Blei
Elle implémente inférence variationnelle pour la marque communautaire.
diln Discrete infinite logistic normal C J. Paisley
Elle implémente la discrète normale logistique infinie, un modèle bayésien sujet non paramétrique qui trouve une corrélation entre les sujets.
hlda hiérarchique latent Dirichlet allocation C D. Blei

Elle implémente un modèle de thème qui trouve une hiérarchie de thèmes. La structure de la hiérarchie est déterminée par les données.
turbotopics Turbo sujets Python D. Blei Turbo trouver des phrases mwus significatives dans les sujets.