You are on page 1of 16
Analytics & Insights devient BrightCape ! Entretien d’embauche de Data Scientist : 50 Questions 4 préparer en 2020 @Merieme fff janvier 23,2021 ©5:30pm ©NoComments Blog Entretien d’embauche de Data Scientist : 50 Questions a préparer en 2020 eee Pour réussir son entretien d’embauche, il est important de bien se préparer afin de donner une bonne image et faire bonne impression aux recruteurs En effet, ces derniers sont la recherche de personnes compétentes qui connaissent les bases du métier et qui font également preuve d’intérét au métier et a lentreprise. Dans cet article, nous vous dévoilons les 50 questions les plus posées lors des entretiens pour le poste de DATA SCIENTIST. Question basiques posées en entretien d’embauche de Data Scientist Dans cette premiére section de larticle, je vous propose une liste de questions souvent posées en entretien d’embauche de Data Scientist Je vous conseille de bien comprendre toutes ces notions car elles sont basiques et tres souvent posées. 1. Quel est le réle d’un Data Scientist ? On pose souvent des questions d'entretien sur le rdle du scientifique des données. Les Data Scientists aident les entreprises a comprendre les données et a resoudre des problemes complexes en utilisant leurs competences pointues dans l'analyse des données. wana Les datas Scientist analysent les données, les visualisent et facilitent leur transmission aux clients. lls possédent de solides connaissances et expériences en informatique, modélisation de données, statistique, analytique et mathematiques, ainsi que des connaissances métiers liés au domaine d'expertise de lentreprise (Finance, Marketing ou autres). Je vous invite vivement a consulter l'article suivant : Qu'est-ce qu'un Data Scientist ? 2.Définissez la Data Science La Data science est la combinaison des algorithmes, outils et techniques de Machine Learning ou Apprentissage automatique qui aident a trouver des modéles cachés communs a partir des données brutes. 3. Quelle est la différence entre la Data Science et le Big Data? Cet article répond en détails a cette question: Data science vs Big Data 4. Enumérez les principales composantes d’un projet de Data Science. Voici les principales composantes d'un projet de Data Science: Compréhension des exigences opérationnelles Acquisition et préparation des données Analyse des données, visualisation et inférence 5. Que signifie la regression logique dans la Data Science? Larégression logique est une méthode pour prévoir le résultat binaire & partir d'une combinaison linéaire de variables prédictives. 6. Nommez trois types de biais qui peuvent se produire pendant l’échantillonnage Dans le processus d’échantillonnage, il existe trois types de biais: Sélection Sous-couverture Survie 7. A quoi sert Palgorithme de arbre de décision? Uarbre de décision est un algorithme d’apprentissage supervise. Il est utilisé pour la regression et la classification. Cela permet de diviser un ensemble de données en sous-ensembles plus petits. arbre de décision peut gérer a la fois les données catégoriques et numériques. 8. Que signifie la probabilité antérieure et la vraisemblance? La probabilité antérieure est la proportion de la variable dépendante dans lensemble de données, tandis que la vraisemblance est la probabilité de classer un observateur donné en présence d'une autre variable 9. Quels sont les systémes de recommandation? Les systemes de recommandation representent un filtrage de données. Ils prevoient les preférences des utilisateurs sur les produits en vente. Avec cette préférence, les systemes de recommandations peuvent recommander un produit ou service a l'utilisateur. Le systéme de recommandation est largement utilisé pour recommander: films, articles a lire, produits, musique, 10. Nommez trois inconvénients du modéle linéaire Les trois inconvénients du modéle linéaire sont Uhypothése de linéarité des erreurs Vous ne pouvez pas utiliser ce modéle pour les résultats binaires ou de dénombrements Dans ce modéle, il y a plusieurs problémes d’Overfitting ou dépassement qu'il ne peut pas résoudre Tl. Listez les librairies Python les plus utilisés dans la Data Science SciPy Pandas Matplotlib NumPy Scikit Seaborn 12. Que signifie ’analyse de puissance? analyse de la puissance fait partie intégrante de la conception expérimentale. Elle aide a déterminer la taille de 'échantillon nécessaire pour déterminer leffet d'un ensemble de données avec un niveau d'assurance spécifique. Elle permet également de déployer une probabilité particuliére dans une contrainte de taille d'échantillon. 13. Expliquez le filtrage coopératif ou Collaborative filtering Le filtrage coopératif est utilisé pour rechercher le meilleur modéle en collaboration avec des points de vue de multiples sources de données et différents agents. 14. Que signifie un biais? Le biais est une erreur introduite dans votre modéle a cause de la simplification excessive d'un algorithme de Machine Learning. 15. Que signifie Naive dans l’algorithme Naive Bayes? Le modéle d'algorithme de Naive Bayes est basé sur le théoréme de Bayes. II décrit la probabilité d'un événement. Il est basé sur la connaissance préalable des conditions qui pourraient étre lites a cet événement particulier. 16. Définissez la régression linéaire. Larégression linéaire est une méthode de programmation statique ou le score d'une variable ‘A’ est prédit a partir du score d'une deuxiéme variable ‘B’.B fait reference a la variable prédictive et B a la variable critére. 17. Quelle est la différence entre la valeur attendue et la valeur moyenne? Ces deux termes sont utilisés dans différents contextes. La valeur moyenne est généralement mentionnée lorsqu’on est sur une distribution de probabilités, tandis que la valeur attendue est mentionnée dans le contexte d'une variable aléatoire. 18, Quels sont les tests A/B? Le test A/B est le test d'hypothése statistique pour une expérience aléatoire avec deux variables: A et B. C'est une méthode analytique qui évalue les paramétres de la population a partir des échantillons statistiques. Ce test compare deux pages web en montrant deux variantes A et B, aun nombre similaire de visiteurs, et la variante qui donne un meilleur taux de conversion gagne. Le but de test A/B est d'identifier s'il ya eu des changements dans une page web. Par exemple, si vous avez une banniére publicitaire sur laquelle vous avez dépensé beaucoup d'argent, vous pouvez trouver le rendement de l'investissement, c.-a-d. le taux de clic dans la banniére publicitaire. 19. Que signifie ’apprentissage d’ensemble? Pour résoudre un programme de calcul particulier, plusieurs modéles tels que les classificateurs ou les experts sont stratégiquement générés et combinés. Ce processus est connu sous le nom d'apprentissage densemble. 20. Pourquoi ’apprentissage d’ensemble est-il utilisé? Lapprentissage d'ensemble sert a ameéliorer la classification, la prédiction, approximation des fonctions, ... d'un modele. 21. Quand utiliser ’apprentissage d’ensemble? Lapprentissage d'ensemble est utilisé lorsque vous construisez des classificateurs de composants qui sont plus précis et independants les uns des autres. 22. Quels sont les deux paradigmes des méthodes d’ensemble ? Les deux paradigmes des méthodes d’ensemble sont: Méthodes d’ensemble sequentielles Méthodes d’ensemble paralleles Question Avancées posées en entretien d’embauche de Data Scientist Maintenant que nous avons parcouru l'ensemble des questions de bases posées lors des entretiens d’embauche pour un poste de Data scientist, il est temps de découvrir les questions techniques les plus repandues. 1. Expliquez les termes Eigenvalue et Eigenvector Eigenvectors (vecteur propre) sont utilisés pour comprendre les ‘transformations linéaires. Les Data Scientist ont besoin de calculer les Eigenvectors pour la matrice de covariance ou corrélation. Eigenvalues (valeur propre) sont les directions en utilisant des actes de transformation linéaires spécifiques par compression, basculement ou étirement. 2. Que signifie le terme cross-validation? Cross-validation ou validation croisée est une technique de validation pour évaluer la manieére avec laquelle les résultats de l'analyse statistique se généralisent pour un ensemble de données indépendant. Cette méthode est utilisée dans des contextes ou l'objectif est prédéfinie, et ou il faut estimer la précision d'un modéle. Autrement dit, le but principal de la méthode cross-validation est de definir un ensemble de données pour “tester” le modele dans la phase de formation. 3. Quel est le processus de Data Analysis ou Analyse de données? Le processus de Data Analysis comprend la collecte, nettoyage, interprétation, transformation et modélisation des données pour extraire des renseignements et en tirer profit 4. Que signifie ANN: Artificial Neural Networks ou réseaux neuronaux artificiels Les réseaux neuronaux artificiels (ANN) sont un ensemble d'algorithmes qui ont révolutionné la Machine Learning. lls aident a s'adapter a l'entrée de données changeante. Le réseau géneére le meilleur résultat possible sans repenser les critéres de sortie, 5. Quelle est la différence entre la Data Science(Science de données) et la Data analytics(Analyse des données)? Les Data Scientists doivent découper les données pour extraire des informations utiles qu'un Data Analyst peut appliquer a des scenarios réels La difference entre les deux est que les Data Scientist ont plus de connaissances techniques que les Data Analyst. 6. En quoi le Machine Learning différe du Deep Learning? Lapprentissage automatique se base sur des algorithmes qui sont utilisés pour analyser les données, en tirer des legons, puis appliquer ce qu’ils ont appris pour prendre des decisions. Le Deep Learning fait partie du Machine Learning. II s'inspire de la structure du cerveau humain qui est particuliérement utile dans la detection de fonctions, 7.Nommez les différents Frameworks de Deep Learning Pytorch Microsoft Cognitive Toolkit TensorFlow Caffe Chainer Keras 8. Quel est le meilleur langage de programmation utilisé pour Panalyse de texte? Rou Python? Python sera plus approprié pour l'analyse de texte grace a une riche bibliothéque connue sous le nom de pandas. Il vous permet d'utiliser des outils d'analyse de données de haut niveau et des structures de données. 9. Pourquoi les Data Scientists utilisent les statistiques? Les statistiques aident le scientifique des données a avoir une meilleure idée sur les attentes du client.lls les aident également a construire des modéles de données puissants pour valider certaines prédictions 10. Quels sont les Auto-Encodeurs? Un Auto-Encodeur est un réseau d'apprentissage. Il aide a transformer les entrées en sorties avec peu derreurs. Cela signifie que vous obtiendrez une sortie aussi proche que possible de entrée Tl. Définissez la machine Boltzmann Lamachine Boltzmann est un algorithme d’apprentissage. II aide a découvrir les caractéristiques qui représentent des régularités complexes dans les données de formation. 12. Quand le underfitting ou sous-ajustement se produit dans un modéle statique? Le sous-ajustement se produit lorsqu’un modéle statistique ou un algorithme d’apprentissage automatique est incapable de saisir la tendance sous-jacente des données. 13. Nommez 4 algorithmes utilisés dans Data Science les 4 algorithmes les plus utilisés par les Data Scientists sont Linear regression : régression Linéaire Logistic regression: Régression logistique Random Forest: Forét ou arborescence aléatoire KNN 14. Que signifie KNN ? KNN ou K nearest neighbors(voisins les plus proches) est un algorithme supervisé qui est utilisé pour la classification. Dans KNN, un échantillon d'essai est donné comme classe de la majorité de ses voisins les plus proches. 15. Que signifie la précision? La précision est la métrique d’erreur la plus utilisée dans les mécanismes de classification. Sa valeur est entre 0 et 1. 16. Que signifie analyse univariante? Une analyse qui n'est appliquée a aucun attribut est appelée analyse univariée 17. Définissez ’apprentissage par renforcement. Lapprentissage de renforcement est une technique d’algorithme utilisée dans l'apprentissage automatique. || s'agit d'un agent qui interagit avec son environnement en produisant des actions et en découvrant des erreurs ou des récompenses. Lapprentissage de renforcement est utilisé par différents logiciels et machines pour rechercher le meilleur comportement approprié oula voie qu'il devrait suivre dans une situation spécifique. ll apprend habituellement a la base de la recompense ou de la pénalité donnée pour chaque action qu'il effectue 18, Quelles sont les compétences techniques du Data Scientist? Mathématiques: algorithmique, algebre linéaire... Statistiques : types de données, Correlation, Regression, Théoréme de la limite centrale, T-test, ANOVA Programmation : Les outils ETL comme Informatica, SQL, Analyse de données R & Python 19. Quelle librairie Python est utilisée pour la visualisation des données? Plot Ly ou Plot ly est la librairie Python utilisée pour la visualisation des données.II s'agit d'un outil collaboratif de visualisation en ligne qui est utilisé pour 'analyse des données, les graphiques scientifiques et d'autres types de visualisation. 20. Listez les différents types de données disponibles dans les entreprises données structurées données non structurées Big Data prévenante de différentes sources: réseaux sociaux, questionnaires... Données générées par la machine a partir d'instruments Flux de données en temps réel 21. Quelle est la différence entre les données structurées et non structurées? Cet article détaille la difference entre les données structurées et non structures Données Structurées et non Structurées : Tout ce qu'il faut savoir 22. Que signifie le terme Deep Learning? Deep Learning est un sous-type de Machine Learning. II concerne les algorithmes inspirés de la structure des réseaux neuronaux artificiels (ANN). 23. Quelle est la différence entre Primary Data( données primaires) et Secondary Data(données secondaires)? Données primaires : Les données recueillies par soi-méme sont des données primaires. 24. A quelle fréquence un algorithme doit-il étre mis 4 jour? Vous devez mettre a jour un algorithme lorsque : Vous voulez que le modele évolue en paralléle du flux de données La source de données sous-jacente est en modification lly aun cas de non-stabilité 25. Quelles sont les différentes fonctions des noyaux dans SVM ? ll existe quatre types de noyaux dans SVM: Linear Kernel Polynomial kernel Radial basis kernel Sigmoid kernel 26. Que signifie le terme Distribution Normale? Les données sont géneéralement distribuées de différentes fagons avec un biais vers la gauche ou vers la droite ou elles peuvent toutes étre mélangées. Cependant, il y a des chances que les données soient réparties autour d’une valeur centrale sans aucun biais vers la gauche ou la droite et atteignent une distribution normale sous la forme d'une courbe en forme de cloche. Les variables aléatoires sont réparties sous la forme d'une courbe symétrique en forme de cloche. Ressources pour bien préparer votre entretien Pour réussir votre entretien d'embauche de data scientist, je vous invite vivement a consulter les ressources suivantes: Mathématiques essentielles pour la Data Science 9 Meilleurs Livres de Data Science en 2019 Vous y trouverez des informations supplémentaires pour réussir votre entretien. Laisser un commentaire Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec* Nom* E-mail * Site web Commentaire * OPrévenez-moi de tous les nouveaux commentaires par e-mail OPrévenez-moi de tous les nouveaux articles par e-mail Entreprises Freelances —- Blog_—Contact. Maroc : BrightCape Consulting - 39 Av Lalla Yacout - Casablanca - Tél 0520470303 France : HIM Consulting SAS - 10 Rue de Penthiévre - Paris - Tél : 0184804316 © BrightCape Consulting Mentions légales

You might also like