Random state hacking

Bézoukhov · 20 juillet 2018

Dites les gars, vous faites quoi quand vous perdez 15% sur l’AUC en changeant le random state du train/test split ? (Mais que des gens ont entendu parler du premier AUC)

Cette base de données est vraiment toute pourrie. Trop de risques d’overfit.

Mathieu_D · 20 juillet 2018

Regularisation.

Bézoukhov · 20 juillet 2018

C'est les étapes suivantes ; c'est surtout le damage control en com' le truc :p. Après, je vais diffuser des résultats lundi en mettant en gros que ça a été fait sur un coin de table et attention à l'overfit.

Mathieu_D · 20 juillet 2018

T'as perdu 15% ou 15 points ? Si tu es passé de 85 à 70 d'AUC c'est vraiment la grosse catastrophe.

Bézoukhov · 20 juillet 2018

De 75% à 60% ouais :p . C'est pas tant la cata que ça parce qu'on est sur de l'analyse préliminaire à fond et que le data set est pourri, mais c'est relou ^^.

Mathieu_D · 20 juillet 2018

Avec quel algo ?

Bézoukhov · 20 juillet 2018

Une vieille régression logistique ; j'ai dit étude préliminaire :p. Mon objectif c'est surtout de dire aux mecs que les données sont insuffisantes et qu'il faut qu'ils bossent un peu.

Mathieu_D · 20 juillet 2018

Tu modélises quoi ?

Bézoukhov · 20 juillet 2018

Mmmh. Le forum est public ; c'est délicat à dire :p . Enfin, toute façon, y a 700 lignes pour 100 colonnes _o_.

Mathieu_D · 20 juillet 2018

Oulalala fait de la sélection de variables là avant la logistique. Ou pas de logistique.

Ou regulariser à fond.

Edit j'avais lu 1000 variables.

100 c'est trop ici quand même.

Bézoukhov · 20 juillet 2018

Je sais bien, c'est très exploratoire (plutôt pour aider à la sélection de variables d'ailleurs). M'enfin, c'est juste que tant de variation sur le train/test split ça m'ennuie ; je vais passer ma vie à faire du 5 folds maintenant.

Noob · 26 juillet 2018

Si tu veux faire de la sélection de variable c'est plus de l'analyse de corrélation et à la limite go full PCA, non ?

Mathieu_D · 26 juillet 2018

Sujet touchy la selection de variable. (redondance et pertinence)

Bézoukhov · 26 juillet 2018

Corrélations, aussi un peu de sens métier et tout.

L’idee initiale c’est surtout que cette séparation test/train m’a bien mis dedans.

Solomos · 27 juillet 2018

19 hours ago, Mathieu_D said:

Sujet touchy la selection de variable. (redondance et pertinence)

C'est là qu'est tout le plaisir.

Mathieu_D · 27 juillet 2018

1 minute ago, Solomos said:

C'est là qu'est tout le plaisir.

Alors la sélection de variables en non supervisés c'est encore plus fun !

Connexion

Statistique & Data Science

Random state hacking

Messages recommandés

Bézoukhov

Mathieu_D

Bézoukhov

Mathieu_D

Bézoukhov

Mathieu_D

Bézoukhov

Mathieu_D

Bézoukhov

Mathieu_D

Bézoukhov

Noob

Mathieu_D

Bézoukhov

Solomos

Mathieu_D

Naviguer

Activité