Mục tiêu Data science
Hướng dẫn Data science này nhằm mục đích hướng dẫn bạn đến thế giới Data science và giúp bạn bắt đầu với những kiến thức cơ bản như Data science là gì, Lịch sử Data science và Phương pháp luận Data science. Ở đây, chúng tôi sẽ đề cập đến các Ứng dụng Data science, một sự khác biệt giữa Trí tuệ Kinh doanh và Data science. Cùng với điều này, chúng ta sẽ thảo luận về Vòng đời của Data science và Thư viện Python.
Vì vậy, hãy bắt đầu Hướng dẫn về Data science.
Data science là gì?
Trước khi bắt đầu Hướng dẫn về Data science, chúng ta nên tìm hiểu Data science thực sự là gì.
Các bài viết liên quan:
Data science là một cách để thử và khám phá các mẫu ẩn trong dữ liệu thô. Để đạt được mục tiêu này, nó sử dụng một số thuật toán, nguyên tắc Machine learning (ML) và các phương pháp khoa học. Thông tin chi tiết mà nó lấy từ dữ liệu nằm ở các biểu mẫu có cấu trúc và không có cấu trúc. Vì vậy, theo một cách nào đó, điều này giống như khai thác dữ liệu . Data science bao gồm tất cả phân tích dữ liệu, thống kê và Machine learning. Với nhiều thực hành hơn được dán nhãn vào Data science, thuật ngữ này tự nó trở nên loãng ra ngoài mức hữu dụng. Điều này dẫn đến sự thay đổi trong chương trình giảng dạy cho các khóa học nhập môn về Data science trên toàn thế giới.
Lịch sử của data science
Thông qua sự cường điệu gần đây mà Data science đã thu thập được, chúng tôi nhận thấy rằng nó đã tồn tại hơn ba mươi năm. Những gì chúng ta có thể sử dụng như một từ đồng nghĩa với các thực tiễn như phân tích kinh doanh, kinh doanh thông minh hoặc mô hình dự đoán, giờ đây đề cập đến một ý nghĩa rộng rãi về việc xử lý dữ liệu để tìm ra mối quan hệ bên trong nó. Để trích dẫn một dòng thời gian, nó sẽ diễn ra như sau:
Trong những năm 90
- 1960- Peter Naur sử dụng thuật ngữ này để thay thế cho khoa Machine learning tính.
- 1974- Peter Naur xuất bản Khảo sát ngắn gọn về các phương pháp máy tính, sử dụng một thuật ngữ trong khảo sát về các phương pháp xử lý dữ liệu đương đại.
- 1996- Hội nghị hai năm một lần tại Kobe; các thành viên của IFCS (Liên đoàn Quốc tế về các Hiệp hội Phân loại bao gồm thuật ngữ này trong tiêu đề hội nghị.
- 1997- Tháng 11- Giáo sư CF Jeff Wu có bài giảng đầu tiên về chủ đề “Thống kê = Data science?”.
Năm 2000
- 2001- William S. Cleveland giới thiệu Data science như một chuyên ngành độc lập trong bài báo Data science: Kế hoạch hành động để mở rộng các lĩnh vực kỹ thuật của lĩnh vực thống kê.
- 2002- Tháng 4- ICSU (Hội đồng Khoa học Quốc tế): Ủy ban Dữ liệu Khoa học và Công nghệ (CODATA) bắt đầu Tạp chí Data science- ấn phẩm này tập trung vào các vấn đề liên quan đến hệ thống dữ liệu- mô tả, xuất bản, ứng dụng và cả các vấn đề pháp lý .
- 2003- Tháng Giêng- Đại học Columbia xuất bản tạp chí Tạp chí Data science- một nền tảng cho phép nhân viên dữ liệu trao đổi ý tưởng.
- 2005- Ủy ban Khoa học Quốc gia xuất bản Bộ sưu tập Dữ liệu Kỹ thuật số Trường tồn: Hỗ trợ Nghiên cứu và Giáo dục trong Thế kỷ 21- điều này cung cấp một định nghĩa mới cho thuật ngữ “các nhà Data science”.
- 2007- Jim Gray, người nhận giải thưởng Turing, hình dung khoa học theo hướng dữ liệu là mô hình thứ tư của khoa học.
- 2012- Bài báo của Tạp chí Kinh doanh Harvard đã quy về tiền đúc của thuật ngữ này cho DJ Patil và Jeff Hammerbacher vào năm 2008.
- 2013- IEEE ra mắt nhóm đặc nhiệm về Data science và Phân tích nâng cao; Hội nghị Châu Âu đầu tiên về Phân tích Dữ liệu (ECDA) được tổ chức tại Luxembourg, Hiệp hội Data science Châu Âu (EuADS) ra đời.
- 2014- IEEE ra mắt hội nghị quốc tế đầu tiên Hội nghị quốc tế về Data science và Phân tích nâng cao; General Assembly ra mắt Bootcamp trả phí cho sinh viên, Vườn ươm Dữ liệu triển khai học bổng Data science miễn phí.
- 2015- Springer ra mắt Tạp chí Quốc tế về Data science và Phân tích.
Phương pháp học data science
Trong Hướng dẫn về Data science này, chúng tôi sẽ đề cập đến các Phương pháp luận sau trong Data science:
kiến thức cơ bản cần nắm của Data science
Data science cần nắm kiến thức sau:
- Statistics & Probability: Biết cách thực hiện phân tích dữ liệu, biết các phân phối chuẩn, hypothesis testing.
- Programming: Biết sử dụng các ngôn ngữ lập trình như Python hoặc R.
- Data Wrangling & Cleaning: Biết cách xử lý và làm sạch dữ liệu, biết các thư viện dữ liệu.
- Data Visualization: Biết cách tạo biểu đồ, biết cách sử dụng các thư viện đồ họa.
- Machine Learning: Biết các thuật toán học máy, cách xây dựng và đánh giá mô hình.
- Databases & SQL: Biết cách truy xuất dữ liệu từ cơ sở dữ liệu, biết cách sử dụng SQL.
- Communication & Presentation: Biết cách trình bày kết quả và giải thích kết quả cho khách hàng hoặc đồng nghiệp.
Ứng dụng Data science
Hãy xem một số ứng dụng trong Hướng dẫn Data science này:
- Nhận dạng hình ảnh
Sử dụng thuật toán nhận dạng khuôn mặt của Data science, chúng ta có thể làm được nhiều việc. Facebook có bao giờ đề xuất mọi người gắn thẻ trong ảnh của bạn không? Bạn đã thử tính năng tìm kiếm theo hình ảnh của Google chưa? Bạn có nhớ quét mã vạch để đăng nhập vào WhatsApp Web bằng điện thoại thông minh của mình không?
- Nhận dạng giọng nói
Siri, Alexa, Cortana, Google Voice đều sử dụng tính năng nhận dạng giọng nói để hiểu các lệnh của bạn. Ghi nhận các vấn đề như các trọng âm khác nhau và tiếng ồn xung quanh, điều này không phải lúc nào cũng hoàn toàn chính xác, mặc dù hầu hết thời gian đều có thể hiểu được. Điều này tạo điều kiện thuận lợi cho những hoạt động sang trọng như đọc nội dung văn bản cần gửi, sử dụng trợ lý ảo của bạn để đặt báo thức hoặc thậm chí sử dụng nó để phát nhạc, hỏi về thời tiết hoặc thực hiện cuộc gọi.
- Tìm kiếm Internet
Các công cụ tìm kiếm như Google, Duckduckgo, Yahoo và Bing tận dụng tốt Data science để thực hiện tìm kiếm nhanh chóng, theo thời gian thực.
- Quảng cáo kỹ thuật số
Các thuật toán Data science cho phép chúng tôi hiểu hành vi của khách hàng. Sử dụng thông tin này, chúng tôi có thể đưa ra các quảng cáo có liên quan được sắp xếp cho từng người dùng. Điều này cũng áp dụng cho các quảng cáo dưới dạng biểu ngữ trên các trang web và bảng quảng cáo kỹ thuật số tại các sân bay.
- Hệ thống đề xuất
Những cái tên như Amazon và Youtube sẽ đưa các đề xuất về các sản phẩm tương tự sang một bên hoặc bên dưới khi bạn duyệt qua một sản phẩm hoặc video. Điều này làm phong phú thêm trải nghiệm người dùng (UX) và giúp giữ chân khách hàng và người dùng. Điều này cũng sẽ tính đến lịch sử tìm kiếm và danh sách mong muốn của người dùng.
Hãy cùng khám phá Tương lai của Data science – Triển vọng nghề nghiệp Data science
- Các trang web so sánh giá
Các trang web như Junglee và PriceDekho cho phép chúng tôi so sánh giá của các sản phẩm giống nhau trên các nền tảng khác nhau. Cơ sở này cho phép bạn đảm bảo rằng bạn có được thỏa thuận tốt nhất. Các trang web này hoạt động trong các lĩnh vực công nghệ, may mặc và chính sách cùng với nhiều lĩnh vực khác, đồng thời sử dụng các API và nguồn cấp dữ liệu RSS để tìm nạp dữ liệu.
- Chơi game
Khi người chơi lên cấp, thuật toán máy học có thể cải thiện hoặc nâng cấp chính nó. Đối thủ cũng có thể phân tích các bước di chuyển của người chơi và thêm một yếu tố khó vào trò chơi. Các công ty như Sony và Nintendo tận dụng điều này.
- Giao nhận hậu cần
Các công ty vận tải khổng lồ như UPS, FedEx và DHL sử dụng các phương pháp Data science để khám phá các tuyến đường, thời gian giao hàng và phương thức vận tải tối ưu cùng nhiều phương thức vận tải khác. Một điểm cộng với dịch vụ hậu cần là dữ liệu thu được từ các thiết bị GPS được cài đặt.
- Phát hiện gian lận và rủi ro
Các thực tiễn như lập hồ sơ khách hàng và chi tiêu trước đây cho phép chúng tôi phân tích xem liệu có thất bại hay không. Điều này cho phép các ngân hàng tránh được các khoản nợ và thua lỗ.
BI và Data science
Ở đây, trong phần này của Hướng dẫn về Data science, chúng ta thảo luận về Data science Vs BI. Kinh doanh trí tuệ và Data science không hoàn toàn giống nhau.
- BI hoạt động trên dữ liệu có cấu trúc; Data science hoạt động trên cả dữ liệu có cấu trúc và không có cấu trúc.
- Trong đó BI tập trung vào quá khứ và hiện tại, Data science xem xét hiện tại và tương lai.
- Cách tiếp cận BI là thống kê và trực quan hóa; đối với Data science là thống kê, Machine learning, phân tích đồ thị và NLP.
- Một số công cụ cho BI là Pentaho, Microsoft BI và R ; những công cụ dành cho Data science là RapidMiner, BigML và R.
Vòng đời data science
Hành trình với Data science trải qua sáu giai đoạn-
- Khám phá
Trước bất cứ điều gì khác, bạn nên hiểu những gì dự án yêu cầu. Cũng nên xem xét các thông số kỹ thuật, ngân sách cần thiết và các ưu tiên. Đây là giai đoạn mà bạn định hình vấn đề kinh doanh và hình thành các giả thuyết ban đầu.
- Chuẩn bị dữ liệu
Trong giai đoạn chuẩn bị, bạn sẽ cần thực hiện phân tích trong hộp cát phân tích. Điều này là cho toàn bộ dự án. Bạn cũng sẽ trích xuất, chuyển đổi, tải và chuyển đổi dữ liệu vào hộp cát.
- Lập kế hoạch mô hình
Trong giai đoạn thứ ba, bạn chọn các phương pháp bạn muốn làm việc để tìm ra cách các biến liên quan với nhau. Điều này bao gồm việc thực hiện Phân tích dữ liệu khám phá (EDA) bằng cách sử dụng các công thức thống kê và công cụ trực quan hóa.
- Xây dựng mô hình
Giai đoạn này bao gồm phát triển bộ dữ liệu để đào tạo và thử nghiệm. Điều đó cũng có nghĩa là bạn sẽ phải phân tích các kỹ thuật như phân loại và phân cụm và xác định xem liệu cơ sở hạ tầng hiện tại có hoạt động hay không.
- Truyền đạt kết quả
Đây là giai đoạn cuối cùng thứ hai trong chu kỳ. Bạn phải xác định xem các mục tiêu của bạn đã được đáp ứng chưa. Ghi lại những phát hiện của bạn, thông báo cho các bên liên quan, đánh dấu dự án là thành công hay thất bại.
- Vận hành
Trong giai đoạn cuối, bạn phải tạo báo cáo cuối cùng, tài liệu kỹ thuật và các cuộc họp giao ban
Hướng dẫn Data science này dành riêng cho Python. Vì vậy, hãy bắt đầu Data science cho Python.
Tại sao nên sử dụng Python?
Vì vậy, bây giờ bạn đã biết Data science là gì. Nhưng tại sao Python lại là sự lựa chọn tốt nhất cho nó? Đây là một vài lý do-
- Mã nguồn mở và miễn phí.
- Dễ học; trực giác.
- Ít dòng mã hơn.
- Tính di động.
- Năng suất tốt hơn.
- Nhu cầu và mức độ phổ biến.
- Sự hiện diện / cộng đồng trực tuyến xuất sắc.
- Hỗ trợ nhiều gói có thể sử dụng được với các dự án phân tích; cũng có thể sử dụng các gói có thể sử dụng mã từ các ngôn ngữ khác.
- Nó nhanh hơn các công cụ tương tự như R và MATLAB.
- Khả năng quản lý bộ nhớ đáng kinh ngạc.
Python 2.x hoặc 3.x- Bạn nên sử dụng cái nào?
Trong số rất nhiều yếu tố khác, hỗ trợ cho Python 2 kết thúc chính thức vào ngày 01 tháng 1 st , 2020, vì vậy tương lai thuộc về Python 3. Ngoài ra, 95% các thư viện Data science được thực hiện đang được di chuyển từ Python 2 đến Python 3. Ngoài ra, Python 3 còn sạch hơn và nhanh hơn.
Vậy còn Python 2 thì sao? Nó có những đặc quyền riêng – nó phong phú với một cộng đồng trực tuyến lớn và nhiều thư viện của bên thứ ba, và một số tính năng tương thích ngược và hoạt động với cả hai phiên bản.
Với các đặc quyền của từng phiên bản được liệt kê, hãy đưa ra lựa chọn của bạn.
Hướng dẫn về Data science – Thư viện Python
Để thực hiện phân tích dữ liệu và tính toán khoa học khác, bạn sẽ cần bất kỳ thư viện nào sau đây:
Xem thêm python cho data science
Kết luận
Do đó, chúng tôi hoàn thành Hướng dẫn về Data science này, trong đó chúng tôi đã viết về: Data science là gì, Lịch sử Data science và Phương pháp luận Data science. Ngoài ra, chúng tôi đã đề cập đến Ứng dụng Data science, Data science BI Vs. Cuối cùng, chúng ta đã thảo luận về Vòng đời của Data science và Thư viện Python. Điều này sẽ giúp bạn bắt đầu với Python.
Bạn có điều gì khác để thêm vào Hướng dẫn Data science này? Thả nó trong các bình luận bên dưới.