50-cau-hoi-phong-van-trong-nganh-khoa-hoc-du-lieu

Khoa học dữ liệu là một lĩnh vực đang bùng nổ trong thế giới công nghệ. Cho dù bạn là một chuyên gia có kinh nghiệm, một người mới hay có nhiều chứng chỉ về khoa học dữ liệu. Nhà phỏng vấn có thể sẽ hỏi với những câu hỏi bất ngờ.

Để chuẩn bị tốt cho bản thân, đây là 50 câu hỏi mà một người được phỏng vấn khoa học dữ liệu có thể hỏi bạn. Đây sẽ là hướng đi để bạn có thể chuẩn bị.

Câu hỏi phỏng vấn khoa học dữ liệu

  • Vòng đời của một dự án khoa học dữ liệu đơn lẻ là gì?
  • Bạn sẽ đo lường lợi nhuận (trên đường cơ sở) như thế nào từ một thuật toán hoặc kiến ​​trúc mới hoặc đã được tinh chỉnh?
  • Xác thực chéo là gì và quy trình chính xác để thực hiện điều đó là gì?
  • Điều gì tốt hơn, thiết kế các thuật toán mạnh mẽ hoặc chính xác?
  • Bạn đã viết mã sản xuất trước đây chưa? Bạn đã tạo nguyên mẫu một thuật toán và tạo ra một bằng chứng về khái niệm?

  • Tập dữ liệu lớn nhất mà bạn đã làm việc, liên quan đến kích thước tập huấn luyện, có triển khai thuật toán của riêng bạn trong chế độ sản xuất để xử lý hàng tỷ giao dịch?
  • Một số API phổ biến là gì và bạn sẽ tạo một API như thế nào?
  • Bạn có thể sắp xếp dữ liệu web hoặc thu thập hàng tấn tweet không? Nếu có, làm thế nào?
  • Bạn sẽ tối ưu hóa các thuật toán như thế nào? Cho ví dụ.
  • Kể tên một vài ví dụ về kiến ​​trúc NoSQL.

  • Bạn sẽ làm sạch dữ liệu như thế nào?
  • Làm thế nào sẽ xác định hoặc lựa chọn các số liệu? Bạn đã sử dụng các số liệu tổng hợp được thiết kế và sử dụng trước đây chưa?
  • Kể tên một số ví dụ về hình dung xấu và tốt.
  • Bạn có phải là thành viên của nhóm thiết kế bảng điều khiển và hệ thống báo động không? Vai trò của bạn là gì?
  • Một thuật toán nên được cập nhật thường xuyên như thế nào?

  • Cho ví dụ về giao tiếp giữa máy và máy.
  • Bạn đã tự động hóa một nhiệm vụ phân tích lặp đi lặp lại chưa? Bạn đã làm nó như thế nào?
  • Bạn sẽ đánh giá ý nghĩa thống kê của một cái nhìn sâu sắc như thế nào?
  • Bạn sẽ biến dữ liệu phi cấu trúc thành dữ liệu có cấu trúc như thế nào?
  • Phương pháp hiệu quả để phân cụm 100 tỷ trang web bằng thuật toán gắn thẻ hoặc lập chỉ mục là gì?

  • Nếu bạn đang thực hiện một cuộc phỏng vấn về khoa học dữ liệu, bạn sẽ hỏi những câu hỏi nào?
  • Chính quy hóa là gì và công dụng của nó là gì? Ưu điểm và nhược điểm của các phương pháp cụ thể như hồi quy sườn núi và LASSO là gì?
  • Tối ưu cục bộ là gì và ý nghĩa của nó trong trường hợp phân cụm k-nghĩa là gì?
  • Làm thế nào bạn sẽ tạo ra một mô hình dự đoán của một biến kết quả định lượng bằng cách sử dụng hồi quy bội?

  • Độ chính xác và thu hồi là gì và chúng có liên quan như thế nào đến đường cong ROC?
  • Phân bố đuôi dài là gì? Kể tên ba ví dụ về hiện tượng có đuôi dài.
  • Lập chỉ mục ngữ nghĩa tiềm ẩn là gì và nó được sử dụng để làm gì? Có bất kỳ hạn chế nào đối với phương pháp này không?
  • Định lý Giới hạn Trung tâm là gì và tại sao nó lại quan trọng?
  • Giải thích sức mạnh thống kê.

  • Việc sử dụng và hạn chế của phương pháp lấy mẫu lại là gì?
  • Sự khác biệt giữa mạng nơron nhân tạo với kích hoạt softmax, hồi quy logistic và bộ phân loại entropy cực đại là gì?
  • Sự thiên vị lựa chọn là gì và tại sao nó lại quan trọng?
  • Hãy cho một ví dụ về cách một thiết kế thử nghiệm có thể trả lời một câu hỏi về hành vi? Dữ liệu thực nghiệm khác với dữ liệu quan sát như thế nào?

  • Sự khác biệt giữa dữ liệu định dạng dài và rộng là gì?
  • Việc bổ sung sai dữ liệu bị thiếu có phải là một thực hành được chấp nhận không? Giải thích.
  • Khái niệm của Edward Tufte về “biểu đồ rác” là gì?
  • Điểm ngoại lệ là gì và bạn sẽ sàng lọc những điểm ngoại lệ như thế nào? POA của bạn sẽ là gì nếu bạn tìm thấy chúng trong tập dữ liệu của mình?

  • Phân tích các thành phần chính (PCA) là gì? Những vấn đề nào yêu cầu PCA?
  • Nếu bạn được cung cấp dữ liệu về thời lượng cuộc gọi đến tổng đài, bạn sẽ lập kế hoạch viết mã và phân tích dữ liệu như thế nào?
  • Dương tính giả và âm tính giả là gì? Mô tả các tình huống mà mỗi điều đó đều quan trọng.
  • Sự khác biệt giữa tập dữ liệu quản trị và tập dữ liệu được thu thập từ các nghiên cứu thực nghiệm?
  • Bản vị vàng là gì?

  • Phân biệt giữa học tập có giám sát và học tập không giám sát bằng các ví dụ.
  • NLP là gì?
  • Bạn sẽ viết mã như thế nào để đếm số từ trong tài liệu bằng ngôn ngữ lập trình mà bạn chọn? Làm thế nào bạn sẽ mở rộng điều này cho bi-gram?
  • ​​Vectơ đặc trưng là gì?

  • Mô tả một tình huống mà bạn sẽ sử dụng SVM và Rừng ngẫu nhiên.
  • Bạn định nghĩa dữ liệu lớn như thế nào? Kích thước lớn nhất của dữ liệu bạn đã làm việc là gì?
  • Bạn sẽ sử dụng phương pháp nào để làm việc với các tập dữ liệu lớn?
  • Viết hàm ánh xạ để đếm tần số từ và viết hàm rút gọn cho tương tự.

Nguồn: analyticsinsights

Xem thêm: