Jump to content

About This Club

"An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem." -- John Tukey
  1. What's new in this club
  2. Grosso merdo c'est 45k un junior confirmé en dataops/mlops en environnement Cloud/Spark je suspecte que c'est pareil pour un devops qui va automatiser les workflows GCP ou AWS. Et s'il est junior c'est normal qu'il pêche en accompagnement note.
  3. Le marché ne veut rien dire, il y a devops a.k.a admin système renommé, et devops a.k.a. Automatisation complète de l'infra, archi et accompagnement dans le workflow dev et data. Il est de la seconde catégorie même s'il pêche sur la partie accompagnement humain. Comment obtiens-tu ces chiffres ?
  4. Ça fait 15% au dessus du marché si je compte bien 53k pour 1 an d'XP ça non ? (Sans formation particulièrement prestigieuse)
  5. Il est bon, d'accord, mais bon dans quel domaine / quelles techs, et bon à quel point ?
  6. C'est pas de la data mais un de mes devops, junior, 1 an d'xp tout juste, est en train de péter un câble en demandant une augmentation à 53k, en start-up qui grossit vite et avec des problématiques intéressantes et long terme. Je sais pas quoi en penser. Ça me paraît délirant mais en même temps le marché est délirant. Et il est bon.
  7. Oui, il faut une CTE récursive dégueulasse (pléonasme) pour un truc qui se fait par cliquer-glisser sous Excel. Donc un truc horriblement plus compliqué que le besoin de base ; sans même évoquer les performances qui promettent le pire dès que les datasets ne sont pas riduculement petits. On m'en a dit le plus grand bien pour ce qui est de gérer des masses de données énormes, mais je n'ai pas eu à l'utiliser personnellement.
  8. Des avis sur Druid? L'équipe data eng a commencé à l'utiliser en interne, je suis en train de me faire mon avis, mais je suis preneur d'avis extérieurs.
  9. https://stackoverflow.com/questions/15995055/how-to-calc-exponential-moving-average-using-sql-server-2012-window-functions ?! (je l'ai google car je sais même pas ce que c'est 😛 )
  10. Bon, je crois que j'ai enfin trouvé un truc simple qui est horriblement compliqué à implémenter en SQL seul : calculer une moyenne mobile exponentielle. Défi : prove me wrong.
  11. Hé c'est drôle ça: Il était plus simple de renommer des gènes humains que de mettre à jour Excel. https://www.numerama.com/sciences/641575-il-etait-plus-simple-de-renommer-des-genes-humains-que-de-mettre-a-jour-excel.html Ils en ont tellement assez des conversions automatiques d'Excel qu'ils revoient la nomenclature !
  12. C'est des master data. Oui, l'endroit où je travaille est incapable de savoir si ses master data présentes et si son référentiel historique est alimenté.
  13. Oui sors déjà la courbe du réel en daily sur une année et regarde avec le métier si les gros pics ou les gros creux sont cohérents. Est-ce que tu as une saisonnalité à part hebdomadaire ? Est-ce qu'il y a des pics après des campagnes marketings ou des trucs du genre ? Est-ce que si tu fais un arima basique ou un Prophet avec en apprentissage les années n-3, n-2, n-1 tu es à l'Ouest sur ton année n ou pas ?
  14. J'ai déjà un graphique à la con sur Excel : log du nombre de lignes intégrées par jour, moyenne mobile exponentielle du précédent avec param 1/7 (j'ai pris 1/7 parce que 7 jours par semaine, mais je suis ouvert à d'autres propositions), rapport entre écart-type (sur 7 jours encore une fois) et la valeur moyennée (je ne sais pas si je devrais prendre mon écart-type sur le moyenné ou sur le log originel, ni si je devrais diviser par l'un ou l'autre) histoire d'avoir un coefficient de variation sans unité. J'essaie surtout de trouver un système pour que 1- ça marque les esprits, et 2-
  15. Si ils sont à ce niveau, je pense qu'un graphique bien pensé sera plus à même de déclencher un truc que des stats.
  16. Si c'est lié à des séries temporelles tu as le package AnomalyDetection de Twitter qui est bien.
  17. Hé, pour ça il faudrait qu'on aie une idée de la moyenne et de l'écart-type attendus. (J'ai bossé plusieurs mois il y a 15 ans sur des questions de MSP et de Six Sigma, tu penses bien que j'y ai songé tout de suite).
  18. Une carte de contrôle avec un 6 sigma tout con ça ne suffirait pas à ton besoin ? En tout cas si tu es désoeuvré il y a une littérature abondante sur "qu'est ce qu'un outlyer" et pas mal de packages dispo dans différents langages.
  19. De ce que je compte le nombre de lignes transférées chaque jour (ou semaine, ou heure, on verra). Tout bêtement. Le service où je bosse n'est même pas encore assez mature pour mailer une "alerte au flux déconnant" si un flux ne se lance pas ou est lancé par erreur douze fois au lieu d'une ; alors tu penses bien, j'essaie de faire simple et crédible pour attirer l'attention des gens sur le problème (trouver une log-normale pour estimer la volumétrie "naturelle" des flux, i.e. moyenne et écart-type, afin d'avoir un critère pour savoir quand on est en dehors des clous).
  20. J'étais déjà dans les processus en fait. Et comme la loi de poisson qui est le comptage le plus basique, converge vers la normale, je me demandais d'où sortait la lognormale. Si les souvenirs sont bons, ça devrait marcher avec les tests de cette famille.
  21. Ah mais justement je voudrais que mon test soit insensible à une variation douce et régulière de la moyenne de la loi sous-jacente (typiquement, + 1% par jour). The central limit theorem says that the product of a long series of independent and identically distributed positive random variables converges to a log-normal distribution for any positive, finite-variance distribution, me dit-on. Je l'ai explicitement choisie parce que 1- son support est R+ (parce que le volume de données transmises n'est pas négatif, duh), et 2- elle est sans doute celle qui demande le moins d
  22. Bah, est-ce que la différence est si importante pour N dépassant quelques milliers ? C'est mon côté computer science. Pourquoi aller faire des trucs d'analyse compliqués quand on peut faire simple. Mais surtout, exprimer ton problème en problème de comptage te permet de savoir vers quelle loi théorique tu devrais converger en continu (et je ne sais trop ce qui converge vers une log normale). C'est une version améliorée de la problématique résolue par le CUSUM : https://en.m.wikipedia.org/wiki/CUSUM En gros une classe d'outils stati
  23. Bah, est-ce que la différence est si importante pour N dépassant quelques milliers ? Tu peux développer ?
  24.  
×
×
  • Create New...