Jump to content

About This Club

"An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem." -- John Tukey
  1. What's new in this club
  2. Oui, il faut une CTE récursive dégueulasse (pléonasme) pour un truc qui se fait par cliquer-glisser sous Excel. Donc un truc horriblement plus compliqué que le besoin de base ; sans même évoquer les performances qui promettent le pire dès que les datasets ne sont pas riduculement petits. On m'en a dit le plus grand bien pour ce qui est de gérer des masses de données énormes, mais je n'ai pas eu à l'utiliser personnellement.
  3. Des avis sur Druid? L'équipe data eng a commencé à l'utiliser en interne, je suis en train de me faire mon avis, mais je suis preneur d'avis extérieurs.
  4. https://stackoverflow.com/questions/15995055/how-to-calc-exponential-moving-average-using-sql-server-2012-window-functions ?! (je l'ai google car je sais même pas ce que c'est 😛 )
  5. Bon, je crois que j'ai enfin trouvé un truc simple qui est horriblement compliqué à implémenter en SQL seul : calculer une moyenne mobile exponentielle. Défi : prove me wrong.
  6. Hé c'est drôle ça: Il était plus simple de renommer des gènes humains que de mettre à jour Excel. https://www.numerama.com/sciences/641575-il-etait-plus-simple-de-renommer-des-genes-humains-que-de-mettre-a-jour-excel.html Ils en ont tellement assez des conversions automatiques d'Excel qu'ils revoient la nomenclature !
  7. C'est des master data. Oui, l'endroit où je travaille est incapable de savoir si ses master data présentes et si son référentiel historique est alimenté.
  8. Oui sors déjà la courbe du réel en daily sur une année et regarde avec le métier si les gros pics ou les gros creux sont cohérents. Est-ce que tu as une saisonnalité à part hebdomadaire ? Est-ce qu'il y a des pics après des campagnes marketings ou des trucs du genre ? Est-ce que si tu fais un arima basique ou un Prophet avec en apprentissage les années n-3, n-2, n-1 tu es à l'Ouest sur ton année n ou pas ?
  9. J'ai déjà un graphique à la con sur Excel : log du nombre de lignes intégrées par jour, moyenne mobile exponentielle du précédent avec param 1/7 (j'ai pris 1/7 parce que 7 jours par semaine, mais je suis ouvert à d'autres propositions), rapport entre écart-type (sur 7 jours encore une fois) et la valeur moyennée (je ne sais pas si je devrais prendre mon écart-type sur le moyenné ou sur le log originel, ni si je devrais diviser par l'un ou l'autre) histoire d'avoir un coefficient de variation sans unité. J'essaie surtout de trouver un système pour que 1- ça marque les esprits, et 2-
  10. Si ils sont à ce niveau, je pense qu'un graphique bien pensé sera plus à même de déclencher un truc que des stats.
  11. Si c'est lié à des séries temporelles tu as le package AnomalyDetection de Twitter qui est bien.
  12. Hé, pour ça il faudrait qu'on aie une idée de la moyenne et de l'écart-type attendus. (J'ai bossé plusieurs mois il y a 15 ans sur des questions de MSP et de Six Sigma, tu penses bien que j'y ai songé tout de suite).
  13. Une carte de contrôle avec un 6 sigma tout con ça ne suffirait pas à ton besoin ? En tout cas si tu es désoeuvré il y a une littérature abondante sur "qu'est ce qu'un outlyer" et pas mal de packages dispo dans différents langages.
  14. De ce que je compte le nombre de lignes transférées chaque jour (ou semaine, ou heure, on verra). Tout bêtement. Le service où je bosse n'est même pas encore assez mature pour mailer une "alerte au flux déconnant" si un flux ne se lance pas ou est lancé par erreur douze fois au lieu d'une ; alors tu penses bien, j'essaie de faire simple et crédible pour attirer l'attention des gens sur le problème (trouver une log-normale pour estimer la volumétrie "naturelle" des flux, i.e. moyenne et écart-type, afin d'avoir un critère pour savoir quand on est en dehors des clous).
  15. J'étais déjà dans les processus en fait. Et comme la loi de poisson qui est le comptage le plus basique, converge vers la normale, je me demandais d'où sortait la lognormale. Si les souvenirs sont bons, ça devrait marcher avec les tests de cette famille.
  16. Ah mais justement je voudrais que mon test soit insensible à une variation douce et régulière de la moyenne de la loi sous-jacente (typiquement, + 1% par jour). The central limit theorem says that the product of a long series of independent and identically distributed positive random variables converges to a log-normal distribution for any positive, finite-variance distribution, me dit-on. Je l'ai explicitement choisie parce que 1- son support est R+ (parce que le volume de données transmises n'est pas négatif, duh), et 2- elle est sans doute celle qui demande le moins d
  17. Bah, est-ce que la différence est si importante pour N dépassant quelques milliers ? C'est mon côté computer science. Pourquoi aller faire des trucs d'analyse compliqués quand on peut faire simple. Mais surtout, exprimer ton problème en problème de comptage te permet de savoir vers quelle loi théorique tu devrais converger en continu (et je ne sais trop ce qui converge vers une log normale). C'est une version améliorée de la problématique résolue par le CUSUM : https://en.m.wikipedia.org/wiki/CUSUM En gros une classe d'outils stati
  18. Bah, est-ce que la différence est si importante pour N dépassant quelques milliers ? Tu peux développer ?
  19. Pourquoi partir vers des trucs continus alors que tu es typiquement dans le domaine des processus de comptage ? J'avais un copain qui avait fait pas mal de truc sur de la longévité et le repérage d'anomalies /changements de tendance à base de processus de Shiraiev Roberts. Ça peut être utile.
  20. Des gens ici ont un background en maîtrise statistique des procédés / statistical process control ? Je me mets pour ce fil dans le cadre des problématiques classiques (ou qui gagneraient à l'être) du monde des ETL, de l'intégration de données et de ce genre de tâches à nettoyer, pardon, à accomplir. J'aimerais surveiller un certain nombre de flux de données entre un système A (la source) et un système B (la cible), les deux étant des bases relationnelles (i.e. on peut classer les flux par entité, et compter le nombre de lignes transférées). Est-il raisonnable de modélis
  21. Manifestement, il y a des types incapables de loguer une heure correctement (EndDate est précise à la milliseconde, mais StartDate est à la seconde, WTF), ça fait que certaines lignes empiètent les unes sur les autres de manière débile. Du coup j'ai tenté d'ajouter une clause And PP.Name <> Child.Name mais ça ne suffit pas. J'ai donc reconstitué l'arbre des appels à la main (j'ai fouillé les .dtsx en extrayant les noeuds <ExecutePackageTask><PackageName> comme une brute... et ce n'est pas un arbre, il y a deux modules distincts qui appellent le même fils. L'horreur.
  22. Les deux ont l'air confés différemment. Je ne vois pas de moyen simple de changer ça, faudra que je me plonge dans les fichiers de conf de ckeditor à l'occasion. (mais bon, mix tabs and spaces is evil )
  23.  
×
×
  • Create New...