About This Club
- What's new in this club
-
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Tu as passé la certif' pspo ? -
Je raconte my life dans la data
Prouic replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Bon , back to business. Product owner (gngn) pour industrialiser des outils data avec pyspark sur le jouet palantir. C'est toujours mieux que 6 mois de dashboards -
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
J'ai pas l'impression. D'où le conseil de réfléchir en termes d'ensembles et de normalisation ; les histoires de dénormalisation et de méthodes d'accès et de jointure, c'est après, une fois que le SQL (DDL, DML et DQL) est écrit comme il faut. -
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Jusque là apparemment des échos que j'en ai ça reste moins cher que Teradata. -
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Ouch, c'est d'autant plus impressionnant. Demande quand même au CIO de regarder sa facture Azure de fin de mois, la part variable pourrait être rigolote. -
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Je viens d'arriver je ne connais pas tous les tenants et aboutissants de l'architecture. (On compare une appliance on-premise à une cloud base sur Azure) Mais globalement ça va 10 fois plus vite du point de vue utilisateur. (Donc en comptant le réseau, l'I/O, l'outil dans lequel ça tombe, SAS, Microstrategy, Databricks...) -
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Quelques exemples ? Et sur du matériel de puissance équivalente ? -
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
@Prouic tu as vraiment besoin de comprendre un plan d'exécution pour faire ce que tu veux faire ? (Sinon ça n'a rien à voir mais on est en train de migrer de Teradata vers Snowflake au boulot. Le gain en performance est assez hallucinant, sachant que Teradata ce n'est pas de la daube, c'est d'autant plus impressionnant ) -
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Les bases de données relationnelles, c'est de la théorie des ensembles appliquée, en fait. Pas forcément besoin de creuser tant que ça, mais l'idée est de toujours garder en tête qu'une requête, c'est un truc qui prend un dataset (ou des dataset), et qui renvoie un autre dataset (pour modifier le premier si c'est un Insert, un Update ou un Delete, ou bien pour le mettre ailleurs si c'est un Select). Oui alors on peut faire de la branlette intellectuelle toute la journée aussi, hein. C'est surtout qu'il faut, autant que possible, renoncer à penser en termes de variabl -
Je raconte my life dans la data
Prouic replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
reprise ici ca ril parait qu'on énerve les gens dans TIL Alors voilà ce qu'il s'est passé: Après avoir été estampillé geek de service suite au switch de Bureau d'étude vers formation data analytics, je m’intéresse à lier les besoins métiers avec le contenu des data lake de la boite. Là ou ça déconne c'est que vu que j'aime bien que ça soit juste, et qu'en plus ma boite est un microcosme de processus et méthodes pour tout et n'importe quoi, et sachant que le data lake a été monté dans l'esprit "on met tout à dispo tel quel", il y a comme un problème de cohérence, car pour cons -
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Des gens ici qui suivent le Spark Summit en ce moment ? https://databricks.com/dataaisummit/europe-2020 -
Beurk. En gros tu leur files un algo, et si il marche c'est eux qui ramassent le pognon.
-
Est-ce quelqu'un a essayé Numerai ? Laissons de coté la partie crypto-monnaie du projet, ils se présentent comme " The hardest data science tournament on the planet." L'objectif est de "Build the world's open hedge fund by modeling the stock market." En résumé, il faut faire le meilleur modèle prédictif à partir de données temporelles boursière non labellisée et anomymes. Il y a une bonne introduction dans la première partie de cette vidéo :
-
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Grosso merdo c'est 45k un junior confirmé en dataops/mlops en environnement Cloud/Spark je suspecte que c'est pareil pour un devops qui va automatiser les workflows GCP ou AWS. Et s'il est junior c'est normal qu'il pêche en accompagnement note. -
Je raconte my life dans la data
cedric.org replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Le marché ne veut rien dire, il y a devops a.k.a admin système renommé, et devops a.k.a. Automatisation complète de l'infra, archi et accompagnement dans le workflow dev et data. Il est de la seconde catégorie même s'il pêche sur la partie accompagnement humain. Comment obtiens-tu ces chiffres ? -
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Ça fait 15% au dessus du marché si je compte bien 53k pour 1 an d'XP ça non ? (Sans formation particulièrement prestigieuse) -
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Il est bon, d'accord, mais bon dans quel domaine / quelles techs, et bon à quel point ? -
Je raconte my life dans la data
cedric.org replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
C'est pas de la data mais un de mes devops, junior, 1 an d'xp tout juste, est en train de péter un câble en demandant une augmentation à 53k, en start-up qui grossit vite et avec des problématiques intéressantes et long terme. Je sais pas quoi en penser. Ça me paraît délirant mais en même temps le marché est délirant. Et il est bon. -
-
-
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Oui, il faut une CTE récursive dégueulasse (pléonasme) pour un truc qui se fait par cliquer-glisser sous Excel. Donc un truc horriblement plus compliqué que le besoin de base ; sans même évoquer les performances qui promettent le pire dès que les datasets ne sont pas riduculement petits. On m'en a dit le plus grand bien pour ce qui est de gérer des masses de données énormes, mais je n'ai pas eu à l'utiliser personnellement. -
Je raconte my life dans la data
cedric.org replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Des avis sur Druid? L'équipe data eng a commencé à l'utiliser en interne, je suis en train de me faire mon avis, mais je suis preneur d'avis extérieurs. -
Je raconte my life dans la data
Prouic replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
https://stackoverflow.com/questions/15995055/how-to-calc-exponential-moving-average-using-sql-server-2012-window-functions ?! (je l'ai google car je sais même pas ce que c'est 😛 ) -
Je raconte my life dans la data
Rincevent replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Bon, je crois que j'ai enfin trouvé un truc simple qui est horriblement compliqué à implémenter en SQL seul : calculer une moyenne mobile exponentielle. Défi : prove me wrong. -
Je raconte my life dans la data
Mathieu_D replied to Mathieu_D's topic in Statistique & Data Science's Sujet de contrôle
Hé c'est drôle ça: Il était plus simple de renommer des gènes humains que de mettre à jour Excel. https://www.numerama.com/sciences/641575-il-etait-plus-simple-de-renommer-des-genes-humains-que-de-mettre-a-jour-excel.html Ils en ont tellement assez des conversions automatiques d'Excel qu'ils revoient la nomenclature !