Jump to content

About This Club

"An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem." -- John Tukey
  1. What's new in this club
  2. Bon , back to business. Product owner (gngn) pour industrialiser des outils data avec pyspark sur le jouet palantir. C'est toujours mieux que 6 mois de dashboards
  3. J'ai pas l'impression. D'où le conseil de réfléchir en termes d'ensembles et de normalisation ; les histoires de dénormalisation et de méthodes d'accès et de jointure, c'est après, une fois que le SQL (DDL, DML et DQL) est écrit comme il faut.
  4. Jusque là apparemment des échos que j'en ai ça reste moins cher que Teradata.
  5. Ouch, c'est d'autant plus impressionnant. Demande quand même au CIO de regarder sa facture Azure de fin de mois, la part variable pourrait être rigolote.
  6. Je viens d'arriver je ne connais pas tous les tenants et aboutissants de l'architecture. (On compare une appliance on-premise à une cloud base sur Azure) Mais globalement ça va 10 fois plus vite du point de vue utilisateur. (Donc en comptant le réseau, l'I/O, l'outil dans lequel ça tombe, SAS, Microstrategy, Databricks...)
  7. Quelques exemples ? Et sur du matériel de puissance équivalente ?
  8. @Prouic tu as vraiment besoin de comprendre un plan d'exécution pour faire ce que tu veux faire ? (Sinon ça n'a rien à voir mais on est en train de migrer de Teradata vers Snowflake au boulot. Le gain en performance est assez hallucinant, sachant que Teradata ce n'est pas de la daube, c'est d'autant plus impressionnant )
  9. Les bases de données relationnelles, c'est de la théorie des ensembles appliquée, en fait. Pas forcément besoin de creuser tant que ça, mais l'idée est de toujours garder en tête qu'une requête, c'est un truc qui prend un dataset (ou des dataset), et qui renvoie un autre dataset (pour modifier le premier si c'est un Insert, un Update ou un Delete, ou bien pour le mettre ailleurs si c'est un Select). Oui alors on peut faire de la branlette intellectuelle toute la journée aussi, hein. C'est surtout qu'il faut, autant que possible, renoncer à penser en termes de variabl
  10. reprise ici ca ril parait qu'on énerve les gens dans TIL Alors voilà ce qu'il s'est passé: Après avoir été estampillé geek de service suite au switch de Bureau d'étude vers formation data analytics, je m’intéresse à lier les besoins métiers avec le contenu des data lake de la boite. Là ou ça déconne c'est que vu que j'aime bien que ça soit juste, et qu'en plus ma boite est un microcosme de processus et méthodes pour tout et n'importe quoi, et sachant que le data lake a été monté dans l'esprit "on met tout à dispo tel quel", il y a comme un problème de cohérence, car pour cons
  11. Des gens ici qui suivent le Spark Summit en ce moment ? https://databricks.com/dataaisummit/europe-2020
  12. Beurk. En gros tu leur files un algo, et si il marche c'est eux qui ramassent le pognon.
  13. Est-ce quelqu'un a essayé Numerai ? Laissons de coté la partie crypto-monnaie du projet, ils se présentent comme " The hardest data science tournament on the planet." L'objectif est de "Build the world's open hedge fund by modeling the stock market." En résumé, il faut faire le meilleur modèle prédictif à partir de données temporelles boursière non labellisée et anomymes. Il y a une bonne introduction dans la première partie de cette vidéo :
  14. Grosso merdo c'est 45k un junior confirmé en dataops/mlops en environnement Cloud/Spark je suspecte que c'est pareil pour un devops qui va automatiser les workflows GCP ou AWS. Et s'il est junior c'est normal qu'il pêche en accompagnement note.
  15. Le marché ne veut rien dire, il y a devops a.k.a admin système renommé, et devops a.k.a. Automatisation complète de l'infra, archi et accompagnement dans le workflow dev et data. Il est de la seconde catégorie même s'il pêche sur la partie accompagnement humain. Comment obtiens-tu ces chiffres ?
  16. Ça fait 15% au dessus du marché si je compte bien 53k pour 1 an d'XP ça non ? (Sans formation particulièrement prestigieuse)
  17. Il est bon, d'accord, mais bon dans quel domaine / quelles techs, et bon à quel point ?
  18. C'est pas de la data mais un de mes devops, junior, 1 an d'xp tout juste, est en train de péter un câble en demandant une augmentation à 53k, en start-up qui grossit vite et avec des problématiques intéressantes et long terme. Je sais pas quoi en penser. Ça me paraît délirant mais en même temps le marché est délirant. Et il est bon.
  19. Oui, il faut une CTE récursive dégueulasse (pléonasme) pour un truc qui se fait par cliquer-glisser sous Excel. Donc un truc horriblement plus compliqué que le besoin de base ; sans même évoquer les performances qui promettent le pire dès que les datasets ne sont pas riduculement petits. On m'en a dit le plus grand bien pour ce qui est de gérer des masses de données énormes, mais je n'ai pas eu à l'utiliser personnellement.
  20. Des avis sur Druid? L'équipe data eng a commencé à l'utiliser en interne, je suis en train de me faire mon avis, mais je suis preneur d'avis extérieurs.
  21. https://stackoverflow.com/questions/15995055/how-to-calc-exponential-moving-average-using-sql-server-2012-window-functions ?! (je l'ai google car je sais même pas ce que c'est 😛 )
  22. Bon, je crois que j'ai enfin trouvé un truc simple qui est horriblement compliqué à implémenter en SQL seul : calculer une moyenne mobile exponentielle. Défi : prove me wrong.
  23. Hé c'est drôle ça: Il était plus simple de renommer des gènes humains que de mettre à jour Excel. https://www.numerama.com/sciences/641575-il-etait-plus-simple-de-renommer-des-genes-humains-que-de-mettre-a-jour-excel.html Ils en ont tellement assez des conversions automatiques d'Excel qu'ils revoient la nomenclature !
  24.  
×
×
  • Create New...