Je raconte my life dans la data

cedric.org · 6 février 2020

En recherche, peut être, mais dans l'industrie je ne vois que du TF, pas vous ?

Mathieu_D · 6 février 2020

PyTorch pour le prototypage et TF pour la prod'.

Mais de l'autre côté de l'Atlantique PyTorch prend le dessus.

cedric.org · 6 février 2020

Oui c'est vrai il y a un gros momentum... À voir si tf2 est la cassure finale (ça semble un peu chiant à upgrade) ou au contraire permet de réconcilier.

Solomos · 6 février 2020

On 2/4/2020 at 12:26 PM, Mathieu_D said:

Sachant qu'il y a un problème de branding avec le terme "data analyst", vu comme un sous-data scientist.

Oui, en fait j'avais respecté le wording de l'annonce en disant "Data Science", mais bon, service conformité d'une banque + SAS, ça n'a trompé personne.

Prouic · 21 février 2020

Switch total du bureau d'étude vers du data pour moi, je viens de me prendre donc pleine face en une semaine:

l'ontologie, le data management, pandas et autre pyspark, jupyter et tout l'environnement de travail python.

Mais ça, c'était Lundi.

Mardi j'y ai ajouté SAFe sa race avec un bon PI planning des familles.

Mercredi j'y ai ajouté le collag de l'ontologie de la donnée au processes de ma boite qui a une facheuse tendance à emboiter des objets sémantiques/logiques depuis 50 ans sans vraiment les définir en tant qu'objets IT.

Et Jeudi , parce que c'etait pas une semaine qui avait ASSEZ mis le bordel dans mon cerveau pour 6 mois, on m'a dit qu'il s'agissait d'un prérequis pour modéliser le tout dans un Knowledge Graph et que je devais me mettre à IQL.

Voilà, on est est vendredi, et le vendredi c'est ravioli, donc ce matin c’était caractérisation des objets en matrice de déviation IT/Data science et Process entreprise.

Bref, pour quelqu'un qui avait juste écrit une fonction lambda dans python avant de venir, c'était un peu dense. Voilà ce que c'est que de changer de métier pour cause de mid life crisis

Solomos · 26 février 2020

On 2/4/2020 at 11:39 AM, Solomos said:

Ils sont ambitieux les jeunes Data Scientist aujourd'hui.

J'en repère 5 junior qui se disent en recherche d'opportunité et je leur demande si une mission de Data Analyse sous SAS pour un service conformité d'un grand groupe bancaire les tente.

Ils me répondent tous mais par la négative pour 4 d'entre eux, seul un est intéressé.

Dans l'absolu, ça ne m'étonne pas d'éviter SAS qui est has-been, mais je pensais pas que des juniors auraient à ce point confiance en leur chance de trouver mieux.

Ma boite a décidé de recruter sur profil pour avoir ce genre de profil dispo.

C'est moi qui vais faire passer le test SAS au candidat pour valider son niveau technique, je sais pas trop ou trouver un test SAS, Google ne m'aide pas trop pour le coup.

Je vais demander à mes collègues qui bossent dans des cabinets plus gros.

C'est quand même plus sympa d'être du coté du recruteur.

Mathieu_D · 26 février 2020

Fait des trucs classiques, des questions où il faut faire des jointures et réfléchir un peu left ou inner ou full join, un peu de données pourries avec des questions du type "combien de clients actifs vivent à Paris ? " avec "paris", "Paris", "PARIS" comme libellé dans le champs ville et des clients sans transactions dans une autre table. (bonus un travail sur la clef).

Je ne penses pas que tu aies besoin de questions plus compliquées ou de questions du genre "comment on code ça en SAS ? Proc truc ou proc machin avec options bidules ? (sans doc)

Ces questions simples filtrent assez bien ceux qui n'ont pas de recul.

Rincevent · 26 février 2020

il y a 37 minutes, Mathieu_D a dit :

avec "paris", "Paris", "PARIS" comme libellé dans le champs ville

COLLATE Latin1_General_100_CI_AI for the win.

Mathieu_D · 26 février 2020

Tiens fait du Bigquery en ce moment.

Ça marche bien.

Mathieu_D · 28 février 2020

Bon sinon est-ce que quelqu'un peut me parler de Cap Gemini (Insights and Data) ici ?

Je suis assez avancé dans un process. (c'est plutôt moi qui freine)

J'me tâte.

cedric.org · 28 février 2020

J'ai du mal avec les grosses SSII, mais c'est tout personnel. Je m'y suis toujours bien plus amusé chez un éditeur, encore plus côté start-up, ou tu peux vraiment créer quelque chose.

Solomos · 4 mars 2020

On 2/26/2020 at 10:37 PM, Mathieu_D said:

Fait des trucs classiques, des questions où il faut faire des jointures et réfléchir un peu left ou inner ou full join, un peu de données pourries avec des questions du type "combien de clients actifs vivent à Paris ? " avec "paris", "Paris", "PARIS" comme libellé dans le champs ville et des clients sans transactions dans une autre table. (bonus un travail sur la clef).

Je ne penses pas que tu aies besoin de questions plus compliquées ou de questions du genre "comment on code ça en SAS ? Proc truc ou proc machin avec options bidules ? (sans doc)

Ces questions simples filtrent assez bien ceux qui n'ont pas de recul.

J'ai fait ça, du coup c'est plutôt un test base de données avec langage SAS.

S'il veut, il fera tout en Proc SQL sans problème,

J'ai juste mis une question ou il faut faire un dédoublonnage, parce que clairement la Proc SORT + nodupkey défonce la combo de requête SQL nécessaire pour faire la même chose.

Rincevent · 4 mars 2020

il y a 3 minutes, Solomos a dit :

J'ai juste mis une question ou il faut faire un dédoublonnage, parce que clairement la Proc SORT + nodupkey défonce la combo de requête SQL nécessaire pour faire la même chose.

Oh, really ?

Solomos · 4 mars 2020

Just now, Rincevent said:

Oh, really ?

En compacité du code, en tout cas oui.

En temps de calcul, je pensais que oui, mais je me trompe peut-être (ou alors je fais pas la bonne combo de requête )

Attention, je parle de dédoublonnage suivant un critère, pas de faire le menage pour cleaner des pbs de DQ

Dans mon exemple, j'ai une table avec des RDV médicaux, je veux sortir le prochain pour chacun des medécins

Rincevent · 4 mars 2020

Ça sert à ça les fonctions de fenêtrage, non ?

Solomos · 4 mars 2020

2 hours ago, Rincevent said:

Ça sert à ça les fonctions de fenêtrage, non ?

Ah oui, ça marche aussi.

Solomos · 4 mars 2020

On 2/26/2020 at 10:37 PM, Mathieu_D said:

avec "paris", "Paris", "PARIS"

Il m'a fait un WHERE City LIKE '%Paris%'

Jsuis sceptique sur le bonhomme

Prouic · 4 mars 2020

Oui alors. J'ai une formation de 200 Heures dans la vie et je fais deja des tests distinct pour regarder un minimum la tête du dataset. je te confirme que c'est pas terrible.

Le mini je pense ca aurait été WHERE UPPER(CITY) LIKE '%PARIS%', car quand on te fait tester une ville, clairement c'est sensé allumer une lumière sur la variabilité du format d'une string.

Après au vu des deux gonzes sortis d'école dans l'equipe, j'ai l’impression que le wrangling et particulierement la complétude et la tangente aux gold standards ca passe carrément à la trappe.

Solomos · 4 mars 2020

Dans mon test, c'était un prénom composé et un nom à particule.

Et je précisais dans la question "on n'est pas sûr de la façon dont la saisie a été faite (minuscule, majuscule, espace, tiret) donc oui j'attendais au moins un Upper ou un compress('-', ' ')

En plus, il a fait d'autres erreurs.

Prouic · 4 mars 2020

oui ben c'est fail alors.

- Les noms prénoms tout le monde sait que ça pue.

- Il aurait du se le dire de lui même car c'est du niveau data +2 mois.

- Il l'a pas fait bien que tu lui ais dis

- Le minimum en vrai c'est de faire une ptite fonction qui sort tous les caractères et tuer tous les potentiels casse burnes, et on parle même pas re regex juste de replace.

Et en plus il a pas zélé alors que c'est pour une demande de taf, ce qui veut dire que le mindset est aux fraises.

Mathieu_D · 4 mars 2020

Bon après Cap Gé j'ai avance dans un process pour un cabinet data d'une vingtaine de personnes où ils sont bons en alimentation, DQ, et gouvernance mais pas Data Science. (où ils veulent être meilleurs et ont déjà quelques jeunes et en projettent plus)

Autre ambiance.

Rincevent · 4 mars 2020

Il y a 4 heures, Solomos a dit :

Dans mon test, c'était un prénom composé et un nom à particule.

Et je précisais dans la question "on n'est pas sûr de la façon dont la saisie a été faite (minuscule, majuscule, espace, tiret) donc oui j'attendais au moins un Upper ou un compress('-', ' ')

En plus, il a fait d'autres erreurs.

Pour les caractères spéciaux, j'ai fait l'autre jour une fonction dédiée qui prend chaîne à corriger et masque / liste de caractères, et qui te purge ta chaîne de tout ce qui n'est pas dans ton masque/liste ; et pour le sport elle fait ça avec ce qui se rapproche le plus du Map/Reduce en SQL (respectivement un produit cartésien avec une tally table, et un équivalent de Group_Concat).

Pour la casse, COLLATE Latin1_General_CI_AI et le tour est joué.

Rincevent · 27 mai 2020

Mais bordel, qui a eu l'idée de fare une SP parfaitement monolithique sur des milliers de lignes pour pondre et exécuter un Merge dynamique ? Un merge basé sur une HashColumn en plus ? Une hashcolumn même pas capable de distinguer deux datetimes dont les Time sont différents ? Et d'où on a du datetime quand Date suffit ou que DateTime2 est disponible ?

:wallbash:

Mathieu_D · 27 mai 2020

Je suis bien placé pour un poste de Lead Data Scientist dans une banque nouvellement rachetée par la BPCE.

Je me tâte.

J'ai pas mal revu mes priorités avec le confinement peut être qu'il vaut mieux que je sois interné maintenant.

Prouic · 27 mai 2020

Mon frangin qui développe un site de compta en ligne a besoin de passer l'étape mysql maison sur un serveur OVH (situation qui traine depuis beaucoup trop longtemps) vers un support sql digne de ce nom, avec backup des bases , évidemment.Il stocke actuellement 7Go de data, et ça peut grossir raisonnablement dans les 5 prochaines années.

Les besoins IT ont l'air relativement bas au vu des KPI maison.

Avez vous vous une idée des offres qui correspondent à ce genre de projet ?

La particularité, c'est qu'il a construit une DB par client, plutôt qu'un ensemble de table dans une DB unique . (Il s'était dit à l'époque, débutant innocemment dans l'architecture DB qu'il y avait peut être une limite dans le nombre de table avant que ça rame sur un serveur basique) Aujourd'hui il est sur 100000 Tables , reparties sur 500 DB...

On pensait innocemment AWSer, mais ces bananes font payer à la database A noter qu'il y a moyen de repasser sur une structure 100K table dans une base avec un fros effort de gestion et un hack de son code pour l'attaquer, mais bon si il peut éviter de planter l'outil en production ....

Mathieu_D · 27 mai 2020

Vous ne pouvez pas UNION ALL tous les clients dans un premier temps ?

Prouic · 27 mai 2020

Je demande, je sais pas s'il y a une clé differenciée sur toutes les tables

Mathieu_D · 27 mai 2020

Tu peux créer un nouvel id client unique.

Prouic · 27 mai 2020

Yes. Façon la clé est dans chaque nom de DB, et il y a forcement un code au dessus pour le gérer, donc c'est réinjectable. Je pense juste que dans un premier temps il ne comptait pas toucher sa classe d'attaque des bases pour être sûr que ça plante pas. Le genre de DEv ou tu as pas touché a certains portions du code depuis 5 ans et vu qu'il y a eu aucune review quand ca marche, ca marche

Mathieu_D · 27 mai 2020

Sinon on peut invoquer @Rincevent mais je pense qu'en remodélisant un peu ça tient dans un MySQL basique vu la volumétrie invoquée.

(Mais ça reviendra peut être moins cher de tout foutre tel quel dans un redshift par exemple plutôt que de repenser le modèle, il faut sortir la calculatrice de la résolution de la dette technique.)

Connexion

Statistique & Data Science

Je raconte my life dans la data

Messages recommandés

cedric.org

Mathieu_D

cedric.org

Solomos

Prouic

Solomos

Mathieu_D

Rincevent

Mathieu_D

Mathieu_D

cedric.org

Solomos

Rincevent

Solomos

Rincevent

Solomos

Solomos

Prouic

Solomos

Prouic

Mathieu_D

Rincevent

Rincevent

Mathieu_D

Prouic

Mathieu_D

Prouic

Mathieu_D

Prouic

Mathieu_D

Naviguer

Activité