Como analisar as competências em Data Science

Publicado: Última actualização:
Habilidades em ciências de dados de tela

Ciência dos dados. Uma palavra dos tempos modernos. Em nosso mundo digital atual, é comum descobrir títulos atribuídos a papéis e disciplinas que ainda não são universalmente definidos e aceitos. Nenhum é mais prolífico do que a ciência dos dados e as habilidades dos cientistas de dados que lhes são atribuídas.

Neste artigo, vamos quebrar o significado de ciência de dados, habilidades de cientista de dados e dar-lhe o nosso conselho sobre a melhor forma de avaliar uma posição de ciência de dados.

A ciência dos dados em baixa

De acordo com a empresa de pesquisa de mercado Forrester, até 2021, as empresas orientadas por insights serão coletivamente no valor de $1,8 trilhõesque é superior ao $333 bilhões no ano de 2015. Estes "insights" são derivados de dados, que desempenham um papel fundamental para ajudar as empresas mais bem sucedidas do mundo a tornarem-se mais rentáveis. O mesmo relatório constatou que as organizações orientadas por dados estão crescendo 8 vezes mais rápido do que o PIB global. Alimento para o pensamento.

A capacidade de interpretar dados e aproveitar a sua utilidade é claramente um trabalho bastante sério. Mas há mais ou menos um consenso sobre a falta de consenso sobre uma definição clara de ciência de dados.

Apesar das dificuldades do campo em se definir, não retardou a criação de novos programas de pós-graduação com "ciência de dados" em seus nomes. Para confirmar que, um análise recente do inquérito pela KDNuggets mostrou que os graduados com o nome 'ciência dos dados' começaram a surgir em 2007, com um enorme pico de matrículas em 2012.

É evidente que as posições da ciência dos dados estão numa trajectória crítica da sua vida. Devido à escalabilidade do campo, ele está a receber a atenção que exige. Mas sem ser capaz de compreender bem o que é, como é suposto contratarmos para isso?

O DevSkiller tem-te coberto em ambas as frentes.

O que é a ciência dos dados

O que é Data Science?

Na sua forma mais simples, a ciência dos dados é a disciplina de tornar os dados úteis. O conceito de A ciência dos dados é "unificar estatísticas, análise de dados, aprendizagem de máquinase seus métodos relacionados" para "compreender e analisar os fenômenos reais" com dados.

Tradicionalmente, os dados que podíamos avaliar eram na sua maioria estruturados e pequenos em tamanho, e capazes de serem analisados usando ferramentas simples de BI. Ao contrário dos dados dos sistemas tradicionais, que eram na sua maioria estruturados, hoje a maioria dos dados não está estruturada ou está semi-estruturada. Esta demanda acelerou o papel do cientista de dados.

1.1 Qual é o papel de um cientista de dados?

Um cientista de dados deve estar definindo a estratégia de dados da empresa que envolve a criação de tudo, desde a engenharia e infra-estrutura para coleta de dados e registro, até as preocupações com privacidade. Eles decidem que dados será voltado para o usuárioComo os dados vão ser usados para tomar decisões e como vão ser incorporados no produto. Eles também estarão preocupados em patentear soluções inovadoras e estabelecer objetivos de pesquisa. Uma lista das suas responsabilidades básicas inclui:

  • Sintetizando todas as informações, estatísticas e dados disponíveis de uma organização,
  • Compilação de informações sobre as necessidades de IA em uma organização,
  • Analisar dados e encontrar usos potenciais com IA (às vezes chamados de Análise Exploratória de Dados),
  • Explicar os padrões de dados aos colegas e clientes orientados para os negócios (um processo conhecido como narração de histórias de dados),
  • Desenhar e preparar modelos de aprendizagem de máquinas,
  • Avaliar a eficácia dos modelos no ambiente de produção.

Caso você não soubesse, um modelo de aprendizagem de máquina é um programa que tem sido treinados para reconhecer certos tipos de padrões. É possível treinar um modelo sobre um conjunto de dados, fornecendo-lhe um algoritmo que pode usar para raciocinar e aprender com esses dados.

Um cientista chefe de dados deve gerenciar uma equipe de engenheiros, cientistas e analistas e deve se comunicar com a liderança em toda a empresa, incluindo o CEO, o CTO e a liderança do produto. Ela também estará preocupada em patentear soluções inovadoras e estabelecer metas de pesquisa.

Um popular Twitter definição descreveu um cientista de dados como "alguém que é melhor em estatística do que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico".

1.2 Um cientista de dados é semelhante a qualquer outra posição?

Muitos tipos diferentes de analistas são capazes de 'tornar os dados úteis', começando por um engenheiro de dados, até um perito qualitativo. Enquanto todas estas funções participam na ciência de dados, para se referir a alguém como cientista de dados deve ter experiência nas três áreas (analítica, estatística e ML/IA).

Para dar um exemplo, um programador de aprendizagem de máquinas faz um subconjunto das tarefas do cientista de dados, mas concentra-se apenas em modelos de aprendizagem de máquinas. O cargo de cientista de dados é realmente um termo guarda-chuva, embora os títulos dos cargos nunca tenham sido um reflexo exato das responsabilidades de cada um.

Ciência dos dados: O que é importante para um recrutador de TI

O que é importante para um recrutador de TI saber sobre Data Science?

2.1 Com que frequência o ambiente/desafios enfrentados muda?

Uma coisa que um recrutador de TI deve observar é que o cenário está mudando constantemente. Os dados estão sempre ficando maiores, e os problemas estão ficando mais difíceis; por isso novas técnicas são desenvolvidas e novos frameworks são certamente seguidos.

2.2 Há muitos recursos/ferramentas/tecnologias (bibliotecas, estruturas, etc.) disponíveis?

Estar familiarizado com certos recursos e ferramentas será certamente uma grande vantagem. Atualmente, muitas ferramentas estão disponíveis na linguagem Python, entretanto, há muito menos disponíveis para R (outra linguagem de programação). Alguns frameworks de aprendizagem profunda estão disponíveis em C++, pois é mais rápido e mais eficiente em termos de memória do que o Python. Em Python, algumas das bibliotecas mais populares incluem: pandas, Seaborn, plotly, scikit-learn, PyTorch, TensorFlow.

2.3 O que deve saber um cientista de dados e quais são as competências mais importantes dos cientistas de dados?

Espera-se que os cientistas de dados saibam muito - aprendizagem de máquinas, informática, estatística, matemática, visualização de dados, comunicação e aprendizagem profunda. Dentro dessas áreas, há dezenas de línguas, estruturas e tecnologias que os cientistas de dados podem aprender.

A ciência dos dados requer estatísticas e conhecimentos de informática - não é uma surpresa. É interessante que a comunicação seja mencionada em quase metade das listagens de empregos da Data Science hoje em dia. Os cientistas de dados precisam ser capazes de comunicar insights e trabalhar com outros. Uma lista básica do que faz um bom cientista de dados está abaixo:

  • Capacidade de análise de dados
  • Habilidade na aprendizagem de máquinas
  • Tem boa capacidade de comunicação
  • Domina uma estrutura de aprendizagem profunda
  • É fluente em Python ou R

2.4. Que tipo de experiência é importante procurar em um cientista de dados (comercial, open-source, científico, acadêmico)?

Para a investigação, só os projectos - académicos ou de experiência científica - serão os mais cruciais e bem fundamentados. Mas em termos de criação de modelos de produção - a experiência anterior com o trabalho com outros modelos de produção dar-lhe-á a melhor perspectiva.

Verificar competências

Como verificar as habilidades dos cientistas de dados na fase de triagem?

Dados de crescimento significa crescer opportunities - it, todos precisam apenas de uma boa gestão. A verificação das habilidades na fase de triagem é complicada, mas focar nas competências brandas de um candidato também pode ajudar a eliminar talentos de uma forma única. Encontrar cientistas de dados que já são uma grande decisão.

Os fabricantes podem poupar muito trabalho para o seu negócio.

3.1 O que levar em conta na triagem de um currículo?

O mais importante a considerar é se o candidato tem um histórico detalhado nas áreas mais relevantes. Um histórico de exposição à matemática, estatística, informática, programação e bibliotecas de aprendizagem de máquinas são absolutamente fundamentais aqui. A experiência anterior com análise e programação de ciências de dados também é vital.

O que irá separar um bom cientista de dados de um grande é a capacidade de comunicação interpessoal, ou seja, a capacidade de conversar e cooperar com uma grande variedade de pessoas. O candidato também deve ter uma boa perspicácia empresarial ou uma compreensão bem fundamentada dos fundamentos e princípios empresariais.

Certifique-se de verificar se o candidato indicou como seu trabalho afetou positivamente um aumento nas vendas, ROI, etc. É essencial que os candidatos de topo incluam provas quantitativas das suas realizações.

Se o candidato que você está procurando é um recém-formado, concentre-se em suas habilidades e em cursos ou estágios relevantes que ele possa ter feito para avaliar sua amplitude de conhecimentos.

3.2 Que termos do glossário são importantes de se saber?

  • Análise exploratória de dados - consiste na limpeza de dados, exploração de padrões de dados e a descoberta manual de padrões nos dados.
  • Narração de dados - refere-se à descrição e visualização de padrões de dados para pessoas sem o conhecimento técnico
  • Aprendizagem clássica de máquinas - resolução de tarefas usando modelos como regressão linear ou logística, árvores de decisão, florestas aleatórias, boosting, máquinas vetoriais de suporte, factorização matricial não negativa, K-significativos, k-nearest vizinhos
  • Aprendizagem profunda - resolução de tarefas usando redes neurais. Alguns tipos de redes neurais incluem Redes Neurais Convolucionais e Redes Neurais Recorrentes
Bibliotecas de análise e manipulação de dadosEm Python: NumPy, pandas Em R: dyplr, tidyr
Bibliotecas distribuídas de análise e manipulação de dadosEm Python: Dask In Scala, Java, e Python: Centelha
Bibliotecas de visualização de dadosEm Python: Seaborn, Plotly, Matplotlib Em R: ggplot2
Bibliotecas de Aprendizagem Automática GeralEm Python: scikit-learn Em R: caret, e1071
Bibliotecas de aprendizagem profundaEm Python: Keras, Tensorflow, PyTorch In R: Nnet Em C++: Caffe

3.3 Que certificações estão disponíveis e são respeitadas? Qual é a sua utilidade na determinação das competências dos cientistas de dados?

Vamos esclarecer uma coisa: você não precisa de nenhum tipo de certificado de ciência de dados para conseguir um emprego em ciência de dados. Isso ajuda, mas os recrutadores não estão muito agitados.

No entanto, cerca de metade do conhecimento de aprendizagem da máquina é teórico, pelo que as certificações nesta área são altamente aplicáveis. O outro 50% vem da experiência, portanto, qualquer tipo de modelo de produção criado, ou competições Kaggle. As certificações geralmente não verificam a capacidade de análise de negócios ou habilidades gerais das pessoas. Os melhores cursos que encontramos estão abaixo.

  • Profissional Analítico Certificado (CAP)
  • Associado Certificado Cloudera: Analista de dados
  • Profissional Certificado Cloudera: Engenheiro de Dados CCP
  • Data Science Council of America (DASCA) Cientista Sênior de Dados (SDS)
  • Data Science Council of America (DASCA) Principle Data Scientist (PDS)
  • Trilha Científica de Dados EMC da Dell
  • Engenheiro de dados profissional certificado pelo Google
  • Google Data e Machine Learning
  • Certificado Profissional IBM Data Science
  • Microsoft MCSE: Gestão e Análise de Dados
  • Microsoft Certified Azure Data Scientist Associate
  • Cientista de dados certificado aberto (CDS aberto)
  • SAS Certified Advanced Analytics Professional
  • Grande Profissional de Dados Certificado SAS
  • Cientista de dados certificado pela SAS

As certificações obtidas de Coursera, edX, ou Udacity também são altamente respeitadas.

3.4 Que outras linhas de um currículo podem mostrar as habilidades dos cientistas de dados?

Tomar nota da participação dos candidatos em conferências como oradores pode indicar uma habilidade necessária para ser um contador de histórias adequado, um requisito importante na ciência dos dados. É obviamente imperativo ser um especialista no lado técnico das coisas, mas ter a capacidade de explicar suas descobertas para aqueles sem o seu conhecimento técnico é igualmente crucial.

Participar em competições de aprendizagem de máquinas também pode ser uma grande vantagem. Plataformas como Kaggle.com, topcoder.com, crowdai.org, e knowledgepit.ml oferecem a chance de competir por prêmios no espaço.

No mundo de hoje, ter um bom currículo sozinho pode não ser o suficiente para conseguir aquela cobiçada chamada de entrevista. Especialmente se você está se candidatando a uma função de cientista de dados. Como estamos vivendo e prosperando no meio de uma revolução digital, é lógico que o processo de recrutamento também incorporaria isso.

Navegar nas contas do LinkedIn e GitHub de um candidato pode ser útil para avaliar o perfil de um candidato, bem como para ver sua proficiência em projetos open-source. Você pode decidir se os projetos são relevantes para a função atual. Isto ajuda a visualizar o perfil do candidato para que você seja capaz de estruturar as perguntas de uma certa maneira. Você também será capaz de determinar se as habilidades de cientista de dados mencionadas pelo candidato em seu currículo são reflexivas em seu perfil no GitHub.

Triagem técnica de competências em ciências de dados durante uma entrevista técnica por telefone/vídeo

É difícil confiar apenas nas palavras de um currículo. Afinal, é importante desafiar o candidato para determinar se ele realmente tem as habilidades que diz ter. Mesmo que seja apenas uma entrevista por telefone, pode ajudá-lo a compreender como o candidato pensa e resolve problemas relacionados com o seu ofício.

4.1 Perguntas que você deve fazer sobre os dados de um cientista experiência. Por que você deveria fazer cada uma dessas perguntas?

  • Que tipo de projetos DS você fez, e qual foi a extensão do seu envolvimento nos projetos?
    Razão: Como a ciência dos dados é uma posição extremamente ampla, muitas vezes com diferentes responsabilidades; alguns candidatos podem apenas trabalhar na análise de dados e narração de histórias ou apenas reunir requisitos e criar modelos de aprendizagem de máquinas. A experiência do candidato deve corresponder às responsabilidades do cargo para o qual você está recrutando. Esta questão visa realmente verificar a extensão das competências do candidato.
  • Como o seu trabalho teve um impacto financeiro positivo na organização com os projectos em que participou?Razão: O papel de cientista de dados é uma posição que requer uma boa compreensão dos requisitos e condições do negócio. Procure respostas que mostrem medidas específicas, tais como "a equipe de marketing foi capaz de cortar custos em 10% devido aos nossos resultados", ou "reduzimos a rotatividade de clientes em 5% devido às nossas novas capacidades de retenção".
  • Que tipos de bibliotecas e técnicas de programação você usou?
    Razão: Os cientistas de dados podem usar uma grande variedade de ferramentas para alcançar os mesmos resultados. Estas podem depender da linguagem de programação escolhida, da infra-estrutura interna da empresa e do tamanho do conjunto de dados com o qual o candidato trabalhou. O candidato terá provavelmente o melhor desempenho com ferramentas com as quais tem experiência anterior.

4.2 Perguntas que você deve fazer sobre os dados de um cientista conhecimentos e opiniões. Por que você deveria fazer cada uma dessas perguntas?

  • Como você verificaria se um modelo está funcionando corretamente?
    Razão: A metodologia ideal é dividir o conjunto de dados em secções: conjunto de formação, conjunto de validação e conjunto de teste. O conjunto de treinamento é o único disponível para o modelo e é a base do processo de treinamento. Os parâmetros do modelo são definidos usando o conjunto de validação e a eficiência do modelo é testada no conjunto de teste.
  • Como você verificaria se os dados no conjunto de dados são de boa qualidade?
    Razão: Um cientista de dados terá muito provavelmente de trabalhar com um conjunto de dados recolhidos na empresa que pode conter valores em falta, erros ou inconsistências - estes são os sinais de dados confusos. Para encontrar tais problemas, um cientista de dados deve realizar Análise Exploratória de Dados para resumir as suas características principais.
  • O que é impulsionar e quais são os benefícios ou utilização?
    Motivo: Modelos de reforço são modelos baseados em árvores que consistem em grupos de árvores que são treinados sequencialmente. Os modelos de reforço são atualmente os mais eficientes com grande precisão, tempos de treinamento relativamente curtos, uso reduzido de memória e conjuntos de dados de treinamento necessários de médio porte (em comparação com as técnicas de aprendizagem profunda).

Uma dica do nosso especialista é fazer perguntas que estão relacionadas com problemas de negócios para os quais você está recrutando atualmente. Como qualquer pessoa, os cientistas de dados trabalharão melhor em áreas com as quais estão familiarizados.

Por exemplo, nem todos os candidatos podem ter um "sentir" (ou estar interessados ou dispostos a aprender) o funcionamento interno do equipamento de fábrica (problemas de manutenção preditiva), termos médicos (criar IA para a indústria médica), ou preferências do cliente (recomendar sistemas para o comércio eletrônico).

4.3 Comportamental perguntas que você deve fazer a um cientista de dados. Por que você deve fazer cada uma dessas perguntas?

  • Como você lida com diferenças de opinião com os colegas?
    Razão: Um cientista de dados deve ter boa comunicação e habilidades interpessoais (ou seja, empatia), pois seu papel é baseado na compilação de dados de colegas e na busca de áreas para melhoria dentro de sua organização ou sociedade.
  • Onde você encontra informações sobre novas técnicas de ciência de dados ou casos?
    Razão: Como o campo da ciência dos dados está em constante evolução e crescimento, o papel requer pesquisa constante para se manter atualizado com as últimas atualizações e para resolver os problemas da maneira mais eficiente. Qualquer uma destas fontes é digna: conferências, workshops, MOOCs, blogs de empresas que lidam com DS, encontros da comunidade DS, Facebook ou grupos de e-mail com um tema DS, ou aprender com um mentor.
  • Qual você considera ser seu maior sucesso e maior fracasso no campo da DS?
    Razão: Esta é uma pergunta bastante genérica, mas mostra a capacidade de auto-reconhecimento e auto-reflexão do candidato. Ambos são necessários no processo de aprendizagem, que é uma parte importante de ser um grande cientista de dados.
Testes de codificação

Triagem técnica das habilidades de um cientista de dados usando um teste de codificação online

Contratar um cientista de dados pode ser um processo complicado. A definição real de um cientista de dados é vaga, e o trabalho diário de alguém com "cientista de dados" em seu título de trabalho varia dramaticamente entre as organizações. Além disso, as pessoas vêm para o campo a partir de uma grande variedade de origens. Examinar o passado de um candidato a cientista de dados é uma ciência em si, digna de um post de blogue próprio. Vamos limitar-nos a mostrar-lhe como melhor selecionar um cientista de dados!

5.1 Que teste online de habilidades de cientista de dados você deve escolher?

Ao procurar o direito teste de competências em ciências de dados você deve certificar-se de que corresponde aos seguintes critérios:

  • O teste reflete a qualidade do trabalho profissional que está sendo realizado
  • A duração não é muito longa, uma a duas horas no máximo.
  • O teste pode ser enviado automaticamente e é simples por natureza.
  • O nível de dificuldade corresponde às capacidades do candidato.
  • O teste vai além de verificar se a solução funciona - ele verifica a qualidade do código e como ele funciona em casos de bordas
  • É o mais próximo possível do ambiente natural de programação e permite que o candidato tenha acesso a recursos relevantes
  • Proporciona ao candidato a oportunidade de utilizar todas as bibliotecas, estruturas e outras ferramentas com as quais se depara regularmente.

5.2 DevSkiller pronto a usar testes de competências em ciências de dados online

Os testes de codificação DevSkiller usam nossa metodologia RealLifeTesting™ para espelhar o ambiente de codificação real em que seu candidato trabalha. Ao invés de usar algoritmos obscuros, os testes DevSkiller exigem que os candidatos construam aplicações ou recursos. Eles são classificados de forma completamente automática e podem ser levados para qualquer parte do mundo. Ao mesmo tempo, o candidato tem acesso a todos os recursos que normalmente utilizaria, incluindo bibliotecas, frameworks, StackOverflow e até mesmo o Google.

As empresas usam o DevSkiller para testar candidatos usando sua própria base de código de qualquer parte do mundo. Para facilitar, o DevSkiller também oferece uma série de testes pré-fabricados de habilidades em ciências de dados como os que estão aqui:

Python
MÉDIO
Competências testadas
Duração
70 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Python, Centelha

Tarefa de programação - Nível: Médio

Python | PySpark | Modelo de Preferências do Cliente - Implementar uma aplicação de Engenharia de Dados para o pré-processamento de dados de marketing.

Python
JUNIOR
Competências testadas
Duração
65 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Python

Tarefa de programação - Nível: Fácil

Python | PySpark | ML Logs Transformer - Completar a implementação do gasoduto de transformação de logs.

Scala
JUNIOR
Competências testadas
Duração
66 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Scala

Tarefa de programação - Nível: Fácil

Scala | Spark | ML Logs Transformer - Completar a implementação do gasoduto de transformação dos toros.

Ciência dos Dados
JUNIOR
Competências testadas
Duração
45 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Tarefa - Nível: Fácil

SQL | Catálogo de selos | Os três preços mais elevados - Seleccione três selos (preço e nome) com o preço mais elevado.

Tarefa de programação - Nível: Fácil

Python | Pandas | Analisador de tabelas HTML - Implemente uma função para converter tabelas HTML em um arquivo de formato CSV.

Python
JUNIOR
Competências testadas
Duração
35 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Python

Tarefa de programação - Nível: Fácil

Python | Pandas | Analisador de tabelas HTML - Implemente uma função para converter tabelas HTML em um arquivo de formato CSV.

Python
MÉDIO
Competências testadas
Duração
120 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Python

Tarefa de programação - Nível: Médio

Python | Relatório de vendas de veículos - Implemente uma aplicação para criar relatórios com base no armazém de dados de vendas de veículos.

Python
MÉDIO
Competências testadas
Duração
96 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Python

Tarefa de programação - Nível: Médio

Python | Pandas | A food delivery startup - Transforme uma base de dados de encomendas reduzindo a sua dimensionalidade e criando uma tabela analítica adicional.

Python
JUNIOR
Competências testadas
Duração
45 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Python

Tarefa de programação - Nível: Fácil

Python | Client Base Creator - Implemente a aplicação para recuperar os dados de contato do cliente a partir das mensagens de chat.

Python
MÉDIO
Competências testadas
Duração
70 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Aprendizagem de Máquina, Python

Tarefa de programação - Nível: Médio

Python | Analisador de ADN | Criar e limpar fios de ADN - Implementar 2 métodos em Python que criam e limpam fios de ADN.

Python
JUNIOR
Competências testadas
Duração
49 minutos, no máximo.
Avaliação
Automático
Visão geral dos testes

Perguntas de escolha

avaliação do conhecimento de Aprendizagem de Máquina

Tarefa de programação - Nível: Fácil

Python | DNA Analyzer - Implemente um método em Python que gera relatório estatístico de DNA.

Partilhar correio

Saiba mais sobre a contratação de tecnologia

Subscreva o nosso Centro de Aprendizagem para obter informações úteis directamente na sua caixa de entrada.

Verificar e desenvolver as habilidades de codificação sem problemas.

Veja os produtos DevSkiller em ação.

Certificações de segurança e conformidade. Certificamo-nos de que os seus dados estão seguros e protegidos.

Logotipo DevSkiller Logotipo TalentBoost Logotipo TalentScore