Google Data Analytics Certificate – Contents Review (Course 2 – Ask Questions to Make Data-Driven Decisions)

Bài viết này mình chia sẻ các bạn những kiến thức người học có thể nắm được sau khi hoàn thành khoá học phân tích dữ liệu của Google – Google Data Analytics.
Các bạn có thể tham gia học và lấy chứng chỉ tại Coursera.

Để đạt được chứng chỉ Google Data Analytics, người học phải hoàn thành 8 khoá học thành phần với thời gian ước tính trong vòng 6 tháng (tất nhiên là các bạn có thể rút ngắn thời gian học). Mình sẽ đi chi tiết nội dung của từng khoá ngay bên dưới.

Vì khối lượng kiến thức của chứng chỉ khá nhiều nên mình chia nội dung thành 8 bài viết tương ứng với 8 khóa học để mọi người dễ theo dõi.


Table of Contents

Course 2 – Ask Questions to Make Data-Driven Decisions
Week 1 – Effective questions
SMART Question Model
Week 2 – Data-driven decisions

Big Data and Small Data
Week 3 – More spreadsheet basics
Week 4 – Always remember the stakeholder


Course 2 – Ask Questions to Make Data-Driven Decisions

Week 1 – Effective questions

Take action with data
Hành động cùng dữ liệu

From issue to action: The six data analysis phase
Từ vấn đề đến hành động: Sáu giai đoạn phân tích dữ liệu

Bước 1: Ask – Đặt câu hỏi
Việc giải quyết vấn đề sẽ bất khả thi nếu bạn không biết vấn đề đó là gì. Một số điều cân nhắc:

  • Define the problem you’re trying to solve,
    Định nghĩa vấn đề bạn đang cố gắng giải quyết,
  • Make sure you fully understand the stakeholder’s expectations,
    Đảm bảo rằng bạn hiểu tường tận kỳ vọng của các bên liên quan,
  • Focus on the actual problem and avoid any distractions,
    Tập trung vào vấn đề thực tế và tránh sự xao lãng,
  • Collaborate with stakeholders and keep an open line of communication,
    Phối hợp với các bên liên quan và luôn giữ việc giao tiếp với nhau dễ dàng,
  • Take a step back and see the whole situation in context.
    Quay lại bước trước đây và nhìn toàn bộ tình trạng trong bối cảnh của nó.

Một số câu hỏi CVPT có thể tự vấn mình trong bước này:

  • What are my stakeholders saying their problems are?
    Các bên liên quan của mình nói gì về vấn đề của họ?
  • Now that I’ve identified the issues, how can I help the stakeholders resolve their questions?
    Sau khi đã nhận diện được vấn đề, làm sao mình có thể giúp các bên liên quan giải đáp các câu hỏi của họ?

Bước 2: Prepare – Chuẩn bị
Bạn sẽ quyết định bạn cần thu thập dữ liệu gì để trả lời các câu hỏi và tổ chức nó như thế nào để dữ liệu trở nên hữu ích. Bạn có thể dựa vào các yêu cầu của doanh nghiệp để xác định:

  • What metrics to measure,
    Các chỉ số cần đo lường là gì,
  • Locate data in your database,
    Xác định vị trí của dữ liệu của bạn trong hệ cơ sở dữ liệu
  • Create security measures to protect that data,
    Tạo các biện pháp bảo mật để bảo vệ dữ liệu,

Một số câu hỏi CVPT có thể tự vấn mình trong bước này:

  • What do I need to figure out how to solve this problem?
    Mình cần làm gì để tìm ra cách giải quyết vấn đề này?
  • What research do I need to do?
    Mình cần nghiên cứu những gì?

Bước 3: Process – Xử lý
Dữ liệu sạch là dữ liệu tốt nhất và bạn sẽ cần làm sạch dữ liệu để trách những sai sót có thể xảy ra như: sự không chính xác hoặc không nhất quán. Việc này có nghĩa là bạn cần:

  • Using spreadsheet functions to find incorrectly entered data,
    Sử dụng các chức năng của bản tính để tìm ra dữ liệu chưa chính xác được đưa vào,
  • Using SQL functions to check for extra spaces,
    Sử dụng các tính năng của SQL để kiểm tra các khoảng trắng thừa,
  • Removing repeated entries,
    Xoá dữ liệu trùng lặp,
  • Checking as much as possible for bias in the data.
    Kiểm tra sự thiên vị trong dữ liệu hết sức có thể.

Một số câu hỏi CVPT có thể tự vấn mình trong bước này:

  • What data errors or inaccuracies might get in my way of getting the best possible answer to the problem I am trying to solve?,
    Những lỗi hay sự thiếu chính xác nào có thể “chen lấn” vào con đường đạt được câu trả lời khả thi nhất cho vấn đề mà mình đang cố gắng giải quyết?
  • How can I clean my data so the information I have is more consistent?.
    Mình có thể làm sạch dữ liệu như thế nào để thông tin mình có được sẽ nhất quán hơn?.

Bước 4: Analyze – Phân tích
Bạn sẽ muốn có một suy nghĩ mang tính phân tích về dữ liệu của mình. Trong giai đoạn này, bạn sẽ sắp xếp và định dạng dữ liệu sao cho nó thật sự dễ dàng để:

  • Perform calculations,
    Thực hiện các phép tính,
  • Combine data from multiple sources,
    Kết hợp dữ liệu từ nhiều nguồn khác nhau,
  • Create tables with your results.
    Tạo bảng từ kết quả làm được.

Một số câu hỏi CVPT có thể tự vấn mình trong bước này:

  • What story is my data telling me?
    Dữ liệu của tôi kể cho tôi câu chuyện như thế nào?
  • How will my data help me solve this problem?
    Dữ liệu của tôi giúp tôi như thế nào trong việc giải quyết vấn đề?
  • Who needs my company’s product or service? What type of person is most likely to use it?
    Đối tượng nào cần đến sản phẩm hay dịch vụ của công ty tôi? Khách hàng nào nhiều khả năng sẽ sử dụng đến nó nhất?

Bước 5: Share – Chia sẻ
Mỗi CVPT chia sẽ kết quả công việc theo nhiều cách khác nhau sao cho đảm bảo được kết quả của mình chứa những đồ thị rõ ràng và lôi cuốn. Đây là cơ hội để bạn cho các bên liên quan thấy rằng bạn đã giải quyết các vấn đề của họ và cách bạn đạt được thành quả như thế nào. Việc chia sẻ sẽ chắc chắn giúp đội ngũ của bạn:

  • Make better decisions,
    Đưa ra quyết định tốt hơn,
  • Make more informed decisions,
    Đưa ra các quyết định chứa đựng nhiều thông tin hơn,
  • Lead to stronger outcomes,
    Đưa đến kết luận thuyết phục hơn,
  • Successfully communicate your findings.
    Trao đổi thành công các thông tin bạn tìm được.

Một số câu hỏi CVPT có thể tự vấn mình trong bước này:

  • How can I make what I present to the stakeholders engaging and easy to understand?,
    Làm sao mình có thể khiến cho những điều mình trình bày với các bên liên quan trở nên thu hút và dễ hiểu hơn?
  • What would help me understand this if I were the listener?.
    Điều gì sẽ giúp mình hiểu được vấn đề nếu mình là người nghe?

Bước 6: Act – Hành động
Bây giờ là lúc để bạn hành động cùng với dữ liệu của mình. Bạn sẽ vận dụng những gì bạn tìm tòi được từ việc phân tích dữ liệu và sử dụng nó. Điều này có nghĩa rằng bạn cung cấp các đề xuất cho các bên liên quan dựa trên những thông tin bạn tìm được để họ có thể đưa ra các quyết định từ dữ liệu.

Một số câu hỏi CVPT có thể tự vấn mình trong bước này:

  • How can I use the feedback I received during the share phase (step 5) to actually meet the stakeholder’s needs and expectations?
    Mình có thể sử dụng các phản hồi mình nhận được trong bước 5 như thế nào để đáp ứng thực tế nhu cầu và kỳ vọng của các bên liên quan?

Sáu bước vừa liệt kê bên trên có thể giúp bạn chia nhỏ quá trình phân tích dữ liệu thành nhiều phần nhỏ hơn, dễ quản lý hơn – hành động này gọi là suy nghĩ có cấu trúc. Quá trình suy nghĩ có cấu trúc chứa bốn hoạt động cơ bản sau:

  • Recognizing the current problem or situation,
    Công nhận vấn đề và tình trạng hiện tại,
  • Organizing available information,
    Tổ chức thông tin đang sẵn có,
  • Revealing gaps and opportunities,
    Làm sáng tỏ các chỗ thiếu hụt cũng như các cơ hội,
  • Identifying your options.
    Nhận dạng các lựa chọn của bạn.

Khi bạn bắt đầu sự nghiệp của mình với vai trò là một CVPT dữ liệu, sẽ là bình thường khi bạn cảm thấy bị kéo về nhiều hướng khác nhau với vai trò và kỳ vọng của bạn. Dựa theo một số quá trình đã được đề cập và các kỹ năng suy nghĩ có tính phân tích có thể sẽ kéo bạn về lại đúng lộ trình, lấp đi chỗ trống và biết được chính xác những gì bạn cần.

Solve problems with data
Giải quyết vấn đề cùng dữ liệu

(1) Making predictions – đưa ra các dự đoán
Một công ty muốn biết chiến lược quảng cáo nào là tốt nhất để mang về lượng khách hàng mới – là một ví dụ yêu cầu CVPT dữ liệu phải đưa ra dự đoán. CVPT cùng với dữ liệu, các tệp đa phương tiện, số lược khách hàng mới có được từ các dự án quảng cáo trong quá khứ không thể đảm bảo sẽ cho ra cùng kết quả như vậy trong tương lai, nhưng chúng có thể giúp CVPT dự đoán được chiến lược quảng cáo thay thế tốt nhất để đạt được lượng khách hàng mục tiêu.

(2) Categorizing things – phân loại dữ liệu
Ví dụ về một vấn đề yêu cầu CVPT phân loại dữ liệu là cải thiện mức độ hài lòng của khách hàng. CVPT có thể phân loại các cuộc gọi từ phòng dịch vụ khách hàng dựa trên các từ khoá hoặc điểm mà khách hàng đánh giá. Điều này giúp nhận diện được đơn vị đại diện dịch vụ khách hàng có năng suất tốt nhất hoặc giúp tìm ra mối tương quan giữa các hành động đã thực hiện với điểm hài lòng của khách hàng.

(3) Spotting something unsual – vẽ ra những điểm bất thường
Một công ty bán đồng hồ thông minh giúp người dùng theo dõi được tình hình sức khoẻ có hứng thú với việc thiết kế phần mềm để điểm ra những điều bất thường. CVPT phân tích dữ liệu sức khoẻ tổng hợp có thể giúp đội ngũ phát triển sản phẩm xác định thuật toán chính xác để vẽ ra và thiết lập các cảnh báo khi dữ liệu không theo xu hướng như thông thường.

(4) Indetifying thems – xác định giao diện
Chuyên viên thiết kế trải nghiệm người (UX) có thể dựa vào CVPT để phân tích dữ liệu tương tác của người dùng. Cũng giống như việc yêu cầu CVPT phân loại dữ liệu, các dự án cải thiện tính khả dụng có thể yêu cầu CVPT xác định giao diện để ưu tiên các tính năng sản phẩm đúng nhu cầu khách hàng từ đó cải thiện được chất lượng dịch vụ. Một số giao diện thường dùng nhiều nhất để giúp đỡ các nhà nghiên cứu khai phá các khía cạnh khác của dữ liệu. Trong việc nghiên cứu người dùng thì niềm tin, hành động hay nhu cầu của người dùng là những ví dụ về giao diện.
Bây giờ, bạn đã có thể phân biệt được sự khác nhau giữa categorizing thingsindetifying themes là gì. Cách tốt nhất để phân biệt đó chính là: categorizing things bao hàm việc xếp một việc vào đúng danh mục nó thuộc về; identifying themes sử dụng những bước phân loại xa hơn nữa bằng việc nhóm chúng vào những giao diện rộng hơn.

(5) Discovering connections – Tìm kiếm các kết nối
Một công ty logistic bên thứ ba làm việc với một công ty khác để vận chuyển hàng hoá đến khách hàng đúng giờ là một vấn đề yêu cầu CVPT tìm kiếm các kết nối. Bằng cách phân tích thời gian chờ ở mỗi điểm tập kết hàng hoá, các CVPT có thể xác định những thay đổi lịch trình thích hợp để làm tăng lượng đơn hàng được giao đúng giờ.

(6) Findings Patterns – Tìm mẫu hình
Tối thiểu hoá thời gian không hoạt động của những máy móc bị lỗi là một ví dụ của vấn đề yêu cầu các CVPT tìm kiếm hình mẫu cho dữ liệu. Ví dụ, bằng cách phân tích thời gian bảo trì, CVPT có thể phát hiện ra rằng hầu hết các lỗi xảy ra nếu việc bảo dưỡng thông thường bị gián đoạn hơn 15 ngày làm việc.

Craft effective questions
Những câu hỏi chuyên môn hiệu quả

SMART
Mô hình câu hỏi SMART

Specific: Does the question focus on a particular car feature? (Questions are simple, significant, and focused on a single topic or a few closely related ideas),
Chi tiết: Phải chăng câu hỏi này tập trung vào một tính năng riêng biệt của chiếc xe? (Những câu hỏi đơn giản, quan trọng, và tập trung vào một chủ đề đơn giản hoặc các ý tương liên quan khá mật thiết đến chủ đề)

Measurable: Does the question include a feature rating system? (Questions can be quantified and assessed),
Có thể đo lường: Phải chăng câu hỏi này hàm ý đến hệ thống xếp hạng tính năng? (Những câu hỏi có thể được định tính và kiểm tra)

Action-oriented: Does the question influence creation of different or new feature packages? (Questions encourage change),
Hướng hành động: Phải chăng câu hỏi này ảnh hưởng đến việc sáng tạo ra sự khác biệt hoặc tập hợp những tính năng mới? (Những câu hỏi khuyến khích sự đổi mới)

Relevant: Does the question identify which features make or break a potential car purchase? (Questions matter, are important, and have significance to the problem you’re trying to solve),
Liên quan: Phải chẳng câu hỏi này nhận diện được những tính năng nào gây ra hoặc huỷ luôn kế hoạch mua xe của khách hàng? (Những câu hỏi liên quan đến các vấn đề thường quan trọng, có ý nghĩa với vấn đề mà bạn đang giải quyết)

Time-bound: Does the question validate data on the most popular features from the last three years? (Questions specify the time to be studied).
Giới hạn thời gian: Phải chẳng câu hỏi này hợp thức hoá dữ liệu trong những tính năng phổ biến nhất từ ba năm trước? (Những câu hỏi này chỉ rõ thời gian nghiên cứu)

Một số ví dụ về cách đặt câu hỏi theo mô hình SMART:
❓Nếu bạn đang trao đổi với người làm trong lĩnh vực bán lẻ, một số câu hỏi có thể là:
1. Specific: Dữ liệu anh/chị đang sử dụng có thể giúp chúng ta đưa ra các quyết định cho doanh nghiệp của anh/chị không? Nếu có, anh chi thu thập dữ liệu gì và sử dụng chúng như thế nào?
2. Measureable: Anh/chị biết phần trăm doanh số của những sản phẩm bán chạy nhất là bao nhiêu không?
3. Action-oriented: Anh/chị sẽ đưa ra quyết định hoặc thay đổi gì nếu anh chị đang có thông tin chính xác?
4. Relevant: Anh chị có thường xem lại dữ liệu của doanh nghiệp không?
5. Time-bound: Anh/chị có thể mô tả cách mà dữ liệu đã giúp anh chị đưa ra những quyết định đúng đắn trong những dự án trước đây không?

❓Nếu bạn đang trao đổi với một giáo viên, bạn có thể hỏi một số câu hỏi kiểu như:
1. Specific: Thầy/cô sử dụng kiểu dữ liệu gì để thiết kế bài giảng?
2. Measurable: Điểm của học sinh tương quan như thế nào với cấp độ học của họ?
3. Action-oriented: Thầy/cô có chia sẻ dữ liệu của mình cho các giáo viên khác để họ cải thiện chất lượng bài giảng không?
4. Relevant: Thầy cô có chia sẻ điểm công khai cho cả lớp không? Nếu có, học sinh có cảm thấy có động lực hơn hay bị áp lực hơn không?
5. Time-bound: Trong vòng năm năm trở lại, đã có bao nhiêu lần thầy cô xem lại điểm của khoá học năm liền trước?

❓Nếu bạn đang trao đổi với chủ một doanh nghiệp nhỏ về lĩnh vực bán kem, bạn có thể hỏi:
1. Specific: Anh/chị sử dụng phương thức gì để giúp đỡ doanh nghiệp trong việc mua bán và tồn kiểm hàng hoá?
2. Measurable: Anh/chị có thể sắp xếp thứ tự các nhân tố này ảnh hưởng đến doanh số từ cao nhất đến thấp nhất: giá, hương vị, mùa?
3. Action-oriented: Có phải có một nhân tố mà anh/chị cần nhiều dữ liệu hơn về nó để có thể tăng doanh số tiềm năng hay không?
4. Relevant: Anh/chị quảng cáo và giao tiếp với cộng đồng người tiêu dùng như thế nào?
5. Time-bound: Doanh số hằng năm tăng trưởng như thế nào trong vòng ba năm qua?

Week 2 – Data-driven decisions

Understand the power of data
Hiểu được sức mạnh của dữ liệu

Qualitative and Quantitative data in business
Dữ liệu định tính và dữ liệu định lượng trong doanh nghiệp

Quanlitative data tools

  • Focus groups
    Nhóm tập trung
  • Social media text analysis
    Phân tích văn bản đa phương tiện
  • In-person interviews
    Phỏng vấn trực tiếp

Quantitative data tools

  • Structured interviews
    Phỏng vấn có cấu trúc
  • Surveys
    Khảo sát
  • Polls
    Bình chọn

Tình huống nghiên cứu: Giả sử bạn là CVPT dữ liệu cho một hệ thống rạp chiếu phim. Quản lý muốn bạn ghi dấu những xu hướng về:
• Số lượt khách xem phim qua thời gian,
• Xác suất mua thêm đồ ăn ở quầy bắp nước,
• Sự ưa thích đi xem phim vào ban đêm của khán giả
Trong viễn cảnh của chúng ta, chúng ta giả thiết rằng dữ liệu định tính đã có sẵn để chúng ta xem sét trong vòng ba tháng qua.

(1) Số lượt khách xem phim qua thời gian
Bắt đầu với dữ liệu quá khứ về rạp phim, hệ thống có chương trình giải thưởng và khách hàng thân thiết, nhưng việc đầu tiên bạn cần làm là tìm xem những thông tin nào là hữu ích từ dữ liệu chúng ta đang có. Bạn nhìn danh sách khách hàng trong 3 tháng qua. Nhưng, bởi vì 3 tháng này không có kỳ nghỉ lễ nào, nên bạn quyết định nó xem nó là dữ liệu đại diện cho cả năm. Khi bạn kiểm tra, dữ liệu định lượng xác nhận rằng lượt khách trung bình hằng tháng là 550, nhưng tăng đến 1,600 vào những tháng có ngày lễ.
Dữ liệu quá khứ đáp ứng nhu cầu của bạn cho dự án này, nhưng bạn cũng quyết định sẽ bắt đầu phân tích lại trong một vài tháng sau khi rạp phim tăng giá vé vào các suất chiếu muộn.

(2) Xác suất mua thêm đồ ăn ở quầy bắp nước
Lợi nhuận bằng doanh thu trừ cho chi phí. Dữ liệu quá khứ cho thấy rằng quầy bắp nước mang lại lợi nhuận, lợi nhuận biên ở mức rất nhỏ (razor-thin) dưới 5%. Bạn thấy rằng mỗi hoá đơn trung bình $20 hoặc thấp hơn. Bạn quyết định sẽ tiếp tục quan sát nó trong những ngày tiếp theo.
Dựa vào những gì bạn hiểu được về các công cụ dữ liệu, bạn sẽ đề xuất tạo một khảo sát trực tuyến để khách hàng có thể bình luận về đồ ăn của quầy bắp nước. Đều này sẽ giúp bạn thu thập được nhiều dữ liệu định lượng hơn để cải thiện menu từ đó tăng lợi nhuận tiềm năng.

(3) Sở thích xem suất chiếu muộn của khách hàng
Phân tích của bạn về dữ liệu quá khứ cho thấy các suất chiếu lúc 19:30 là phổ biến nhất và có lượng khách nhiều nhất, theo sau là khung giờ 19:15 và 21:00. Bạn có thể đề xuất thay thế các suất chiếu ít khách hơn là 20:00 thành 20:30. Nhưng bạn cần nhiều dữ liệu hơn để hỗ trợ cho dự đoán của bạn rằng khán giả có khả năng sẽ thích xem các suất chiếu muộn hơn.
Lượng khách xem suất chiếu muộn mang lại nguồn lợi nhuận đáng kể. Do đó, bạn cũng quyết định đưa ra câu hỏi này vào khảo sát trực tuyến để có thêm được nhiều thông tin hữu ích.

Follow the evidence
Lần theo dấu hiệu

Designing compelling dashboards
Thiết kế những dashboard có tính thuyết phục

Bảng dưới đây tổng hợp một số lợi ích khi sử dụng dashboard cho CVPT dữ liệu và các bên liên quan:

Lợi íchcho chuyên viên phân tích dữ liệucho các bên liên quan
Tập trung hoáChia sẽ nguồn dữ liệu du nhất cho các bên liên quanLàm việc với dữ liệu cùng cái nhìn toàn diện, các sáng kiến, mục tiêu, quá trình và nhiều hơn thế
Đồ thị hoáTrình bày và cập nhật trực tiếp những dữ liệu sắp xảy ra trong thời gian thựcNhận diện xu hướng và mẫu hình thay đổi nhanh hơn
Tường minhLấy dữ liệu liên quan từ nhiều nguồn dữ liệu khác nhauHiểu được câu chuyện đằng sau những con số ghi lại mục tiêu và các quyết định đưa ra từ dữ liệu
Tuỳ biếnTạo ra các view tuỳ chỉnh dành riêng cho một cá nhân, dự án, hoặc bản trình bày dữ liệuĐi vào những vùng chi tiết tập trung vào những mối bận tâm

Creating a dashboard
Tạo dashboard

➊ Xác định các bên liên quan, ai là người cần xem dữ liệu và họ sẽ sử dụng dữ liệu như thế nào
Để bắt đầu với bước này, bạn cần đưa ra những câu hỏi hiệu quả. Kiểm tra Requirements Gathering Worksheets (bảng tính thu thập các yêu cầu) để mở rộng phạm vi câu hỏi hay bạn có thể sử dụng để nhận diện các bên liên quan và dữ liệu mà họ cần. Đây là một nguồn rất tuyệt giúp bạn định rõ hướng đi.

➋ Thiế kế dashboard (nên trình bày những gì)
Sử dụng những mẹo sau sẽ làm cho dashboard của bạn trở nên rõ ràng, dễ theo dõi và đơn giản hơn:
▪ Sử dụng tiêu đề rõ ràng để dán nhãn cho thông tin,
▪ Thêm những mô tả ngắn gọn cho mỗi đồ thị,
▪ Hiển thị những thông tin quan trọng lên trên cùng

➌ Tạo những mô hình thu nhỏ (mock-up) nếu muốn
Bước này là tự chọn, nhưng một số CVPT lại thích chi tiết hoá dashoard bằng mock-up trước khi tạo chúng.

➍ Chọn đồ thị bạn muốn đưa vào dashboard
Bạn có nhiều tuỳ chọn và chọn cái nào phụ thuộc vào câu chuyện bạn muốn kể. Nếu bạn muốn hiển thị phần trăm giá trị qua thời gian thì biểu đồ đường hoặc thanh là sự lựa chọn tốt nhất. Nếu mục đích của bạn là hiển thị tỷ trọng của mỗi phần đóng góp vào tổng thể thì biểu đồ bánh có thể là sự lựa chọn hợp nhất.

➎ Tạo bộ lọc nếu cần thiết
Bộ lọc hiển thị giá trị cần thiết sau khi dữ liệu được ẩn bớt đi. Điều này có giúp bạn rất nhiều khi nhận diện mẫu hình nhưng bạn vẫn muốn giữ lại dữ liệu nguyên gốc. Để đào xâu vào các bộ lọc và tìm được mẫu bộ lọc bạn cần, hãy truy cập Tableau, tìm xem mục Filter Actions.

Connecting the data dots
Kết nối các điểm dữ liệu

Big and small data
Dữ liệu nhỏ và dữ liệu lớn

Dữ liệu nhỏDữ liệu lớn
Mô tả tập dữ liệu Mô tả tập dữ liệu lớn, ít chi tiết qua thời gian
Thường được tổ chức và phân tích dưới dạng các bảng tínhThường được lưu trữ dưới dạng hệ cơ sở dữ liệu và truy vấn
Thường được dùng bởi các tổ chức vừa và nhỏThường được dùng bởi các tổ chức lớn
Dễ thu thập, lưu trữ, quản lý, sắp xếp và trình bày đồ thịMất nhiều công sức để thu thập, lưu trữ, quản lý, sắp xếp và trình bày đồ thị
Thường có kích thước dễ quản lý cho việc phân tíchThường cần phải chia nhỏ thành nhiều phần để tổ chức, phân tích và đưa ra quyết định hiệu quả.

Challenges and benefits
Thách thức và cơ hội

Dưới đây là một số thách thức bạn có thể đối mặt khi làm việc với dữ liệu lớn:

  • A lot of organizations deal with data overload and way too much unimportant or irrelevant information.
    Một số tổ chức giải quyết tình trạng quá tải của dữ liệu và việc dữ liệu chứa quá nhiều thông tin không quan trọng và không liên quan.
  • Important data can be hidden deep down with all of the non-important data, which makes it harder to find and use. This can lead to slower and more inefficient decision-making time frames.
    Dữ liệu quan trọng có thể bị ẩn sâu bên trong dữ liệu không quan trọng, gây ra khó khăn khi tìm và sử dụng nó. Điều này có thể dẫn đến khung thời gian đưa ra quyết định sẽ chậm hơn và kém hiệu quả hơn.
  • The data you need isn’t always easily accessible.
    Dữ liệu bạn cần không phải lúc nào cũng có thể dễ dàng truy cập.
  • Current technology tools and solutions still struggle to provide measurable and reportable data. This can lead to unfair algorithmic bias.
    Các công cụ công nghệ và phương pháp giải quyết hiện tại vẫn còn gặp khó khăn trong việc cung cấp dữ liệu có thể đo lường và làm báo cáo. Điều này có thể dẫn đến các sai lệch không công bằng trong thuật toán.
  • There are gaps in many big data business solutions.
    Có nhiều khoảng trống trong một số cách giải quyết của doanh nghiệp về dữ liệu lớn.

Một số lợi ích đến từ dữ liệu lớn:

  • When large amounts of data can be stored and analyzed, it can help companies identify more efficient ways of doing business and save a lot of time and money.
    Khi lượng lớn dữ liệu có thể được lưu trữ và phân tích, nó có thể giúp nhiều công ty nhận diện được nhiều hướng kinh doanh hiệu quả, đồng thời tiết kiệm thời gian và tiền bạc.
  • Big data helps organizations spot the trends of customer buying patterns and satisfaction levels, which can help them create new products and solutions that will make customers happy.
    Dữ liệu lớn giúp doanh nghiệp nhìn được xu hướng mua hàng và mức độ hài lòng của khách hàng, từ đó có thể tạo được sản phẩm mới làm hài lòng khách hàng hơn.
  • By analyzing big data, businesses get a much better understanding of current market conditions, which can help them stay ahead of the competition.
    Bằng cách phân tích dữ liệu lớn, doanh nghiệp hiểu được điều kiện thị trường tốt hơn, điều này giúp doanh nghiệp tồn tại lâu hơn trên thương trường.
  • Big data helps companies keep track of their online presence—especially feedback, both good and bad, from customers. This gives them the information they need to improve and protect their brand.
    Dữ liệu lớn giúp các doanh nghiệp theo dấu sự có mặt của họ trên không gian mạng – đặc biệt là các phản hồi cả tốt lẫn chưa tốt từ khách hàng. Điều này cho họ thêm thông tin để đưa ra hành động giúp cải thiện vào bảo vệ thương hiệu.

Ba (hoặc bốn) chữ V đại diện cho Dữ liệu lớn:

VolumnVarietyVelocityVeracity
Khối lượng dữ liệuCác dạng khác nhau của dữ liệuDữ liệu cần có thể được xử lý nhanh như thế nàoChất lượng và độ tin cậy của dữ liệu

Week 3 – More spreadsheet basics

Working with spreadsheets
Làm việc với bảng tính

Spreadsheets and data life cycle
Bảng tính và vòng đời dữ liệu

Plan – kế hoạch cho người dùng sẽ làm việc với bảng tính bằng cách phát triển các tiêu chuẩn có tổ chức. Việc làm này có thể làm định dạng các ô của bạn, tiêu đề mà bạn chọn để làm nổi bật lên, hệ màu, cách mà bạn sắp xếp các điểm dữ liệu. Khi bạn dành thời gian để thiết lập các tiêu chuẩn đó, bạn sẽ cải thiện được vấn đề giao tiếp, đảm bảo tính nhất quán, và giúp mọi người làm việc hiệu quả hơn trong cùng khoảng thời gian.
Capture – nắm bắt dữ liệu từ nhiều nguồn bằng cách kết nối các bảng tính đến nhiều nguồn khác nhau, ví dụ như các ứng dụng khảo sát hay hệ cơ sở dữ liệu trực tuyến. Dữ liệu này sẽ tự động cập nhật trong bảng tính. Bằng cách đó, thông tin sẽ luôn được làm mới nhanh nhất có thể.
Manage – quản lý nhiều định dạng khác nhau của dữ liệu. Hành động này gồm lưu trữ, tổ chức, lọc và cập nhật thông tin. Các bảng tính cho phép bạn quyết định ai là người có thể truy cập dữ liệu, thông tin được chia sẻ như thế nào, làm sao để giữ chúng an toàn và bảo mật.
Analyze – phân tích dữ liệu trong bảng tính giúp bạn đứa ra quyết định tốt hơn. Một vài công cụ phân tích bảng tính chứa công thức để tổng hợp dữ liệu và tạo báo cáo.
Archive – nén lại các bảng tính mà bạn không sử dụng thường xuyên. Điều này rất có ích nếu bạn muốn khôi phục lại dữ liệu quá khứ trước khi chúng được cập nhật.
Destroy – huỷ bỏ bảng tính khi bạn chắc chắn sẽ không dùng lại nó nữa trong trường hợp bạn đã lưu trữ các bản sao vì lí do bảo mật. Lưu ý, một số doanh nghiệp được yêu cầu phải tuân theo luận hoặc có những phương pháp đảm bảo dữ liệu được huỷ đúng cách.

Save time with structured thinking
Tiết kiệm thời gian với suy nghĩ có cấu trúc

The importance of context
Tầm quan trọng của bối cảnh

Bối cảnh là điều kiện mà tại đó sự việc tồn tại hoặc xảy ra. Bối cảnh quan trọng trong phân tích dữ liệu vì nó giúp bạn sàng qua được lượng lớn dữ liệu chưa được tổ chức và biến nó thành thông tin có ý nghĩa. Thực tế là, dữ liệu có rất ít giá trị nếu không đặt nó trong bối cảnh cụ thể.

Bối cảnh có thể chuyển dữ liệu thô thành thông tin có ý nghĩa. Việc CVPT cần bối cảnh hoá dữ liệu là rất quan trọng. Điều này mang lại cho CVPT các khía cạnh dữ liệu bằng cách định nghĩa được nó. Để làm được điều này, cần phải xác địnhh:
Who – ai: người hoặc tổ chức tạo ra, thu thập hoặc tài trợ cho việc thu thập dữ liệu,
What – cái gì: điều gì trên thế giới mà dữ liệu có thể ảnh hưởng đến,
Where – ở đâu: dữ liệu gốc,
When – khi nào: thời gian dữ liệu được tạo hoặc thu thập,
Why – tại sao: động lực đằng sau sự tạo ra hoặc thu thập dữ liệu,
How – bằng cách nào: phương pháp được dùng để tạo hoặc thu thập dữ liệu

Week 4 – Always remember the stakeholder

Balance team and stakeholder needs
Cân bằng nhu cầu của nhóm và các bên liên quan

Who is the stakeholders?
Các bên liên quan là ai?

Các bên liên quan là những người đầu tư thời gian, lợi ích và nguồn lực vào dự án mà bạn đang làm:

Executive team – Đội ngũ điều hành
Nhóm điều hành cung cấp các chiến lược và kỹ năng lãnh đạo tổ chức cho công ty. Họ thiết lập mục tiêu, phát triển chiến lược và đảm bảo chiến lược được vận hành hiệu quả. Nhóm này có thể gồm vice president (phó chủ tịch), chief marketing officer (giám đốc marketing), senior-level professionals (các chuyên gia cấp cao).

Customer-facing team – Đội ngũ đối mặt với khách hàng
Nhóm đối mặt với khách hàng gồm bất kỳ ai trong tổ chức có mức độ tương tác cao với khách hàng. Họ biên soạn thông tin, thiết lập kỳ vọng và trao đổi với phản hồi của khách hàng về tổ chức.

Data sicence team – Đối ngũ khoa học dữ liệu
Nhóm khoa học dữ liệu gồm các chuyên gia khoa học dữ liệu, kỹ sư dữ liệu và chuyên viên phân tích dữ liệu.

Working effetively with stakeholders
Làm việc hiệu quả với các bên liên quan

Khi làm việc với các bên liên quan – từ đội ngũ vậnh hành, đến đội ngũ đối mặt với khách hàng và đội ngũ khoa học dữ liệu, bạn sẽ phải đi qua cả giới hạn của dữ liệu. Sử dụng những mẹo sau đây để trao đổi rõ ràng, tạo lập niềm tin và truyền đạt thông tin bạn tìm được cho các đội nhóm:

Discuss goals – mục đích thảo luận
Những yêu cầu của các bên liên quan thường gắn chặt với các mục tiêu và dự án lớn hơn. Khi họ yêu cầu bạn điều gì đó, hãy nắm lấy cơ hội để nghiên cứu nhiều hơn. Bắt đầu một cuộc thảo luận. Hỏi thêm thông tin về các hình thức của kết quả mà các bên liên quan muốn. Thỉnh thoảng, một cuộc hội thoại nhanh về mục tiêu có thể giúp thiết lập các kỳ vọng và lên kế hoạch cho các bước tiếp theo.

Feel empowered to say “no” – cảm thấy tự tin để nói “không”
Các bên liên quan không thường xuyên nhận ra thời gian và nỗ lực khi thu thập và phân tích dữ liệu. Họ có thể không biết chính xác họ cần gì. Bạn có thể giúp các bên liên quan bằng cách hỏi về những mục tiêu của họ và xác định bạn có thể truyền đạt những thứ họ cần hay không. Nếu bạn không thể, hãy tự tin trả lời “không” và giải thích một cách thuyết phục.

Plan for the unexpected – lên kế hoạch cho những thứ ngoài mong đợi
Trước khi bạn bắt đầu một dự án, lên danh sách những trở ngại tiềm tàng. Sau đó, khi bạn thảo luận các kỳ vọng và dòng thời gian của dự án với các bên liên quan, hãy cho bản thân thêm chút thời gian để giải quyết các vấn đề ở mỗi giai đoạn.

Know your project – hiểu về dự án
Ghi lại các cuộ thảo luậ về dự án qua mail hoặc các báo cáo, sẵn sàng trả lời các câu hỏi về các khía cạnh nào đó cũng quan trọng cho tổ chức của bạn. Nếu bạn hiểu sâu về lý do tại sao bạn thực hiện phân tích, nó có thể giúp bạn kết nối việc bạn làm với các mục tiêu khác và giải quyết các vấn đề lớn hiệu quả hơn.

Start with words and visuals – bắt đầu với từ ngữ và đồ thị

Communicate often – trao đổi thường xuyên
Các bên liên quan sẽ muốn cập nhật đều đặn về dự án. Chia sẻ các ghi chú về những điểm quan trọng, cản trở, hoặc thay đổi của dự án. Sau dó sử dụng các ghi chú để tạo báo cáo có thể chia sẻ được. Một nguồn khá hay khác là bản ghi thay đổi (change-log), bạn sẽ học đường nhiều điều thông qua kênh này.

Communication is key
Giao tiếp là chìa khoá

Data scenarios and response
Viễn cảnh dữ liệu và những phản hồi

Khả năng giao tiếp dưới nhiều định dạng khác nhau là kỹ năng mấu chốt của các CVPT dữ liệu. Nghe, nói, trình bày và viết là những kỹ năng sẽ giúp bạn thành công trong dự án và sự nghiệp.
Đây là những mẹo quan trọng: Hiểu khán giả! Khi bạn trao đổi các phân tích và đề xuất của bạn với vai trò là CVPT dữ liệu. Rất quan trọng để hiểu được khán giả.
Chắc chắn trả lời các câu hỏi quan trọng liên quan đến khán giả:
▪ Ai là khán giả của bạn?
▪ Họ đã biết gì?
▪ Họ cần biết gì?
▪ Bạn có thể trao đổi như thế nào về những gì họ cần biết?

Amazing teamwork
Làm việc nhóm hiệu quả

Leading great meetings
Dẫn dắt các cuộc trao đổi hiệu quả

Trước cuộc họp
Nếu bạn tổ chức cuộc họp, có thể bạn sẽ nói về dữ liệu. Trước buổi họp:
▪ Nhận diện mục tiêu. Thiết lập mục đích và kết quả mong đợi từ cuộc họp, gồm những câu hỏi và yêu cầu cần được giải quyết,
▪ Cho người tham gia biết bạn đã nhận được phản hồi của họ và giữ cho họ tiếp tục đưa ra các quan điểm khác nhau,
▪ Tổ chức dữ liệu được trình bày. Có thể bạn sẽ cần chuyển dữ liệu thô thành định dạng có thể truy cập được hoặc tạo ra các đồ thị trực quan hoá,
▪ Chuẩn bị và phân phát mục lục. Bước tiếp theo sẽ nói về phần này.

Tạo danh sách vấn đề mang tính thuyết phục
Một danh sách các vấn đề hội họp dẫn dắt buổi họp đến thành công. Dưới đây là những phần nền đưa vào danh sách:
▪ Thời gian bắt đầu và kết thúc cuộc họp,
▪ Địa điểm họp,
▪ Các mục tiêu cuộc họp,
▪ Dữ liệu mà bạn cần người tham gia cần xem trước

Trong cuộc họp
Là một người dẫn dắt cuộc họp, công việc của bạn là dẫn dắt cuộc thảo luận. Mọi người được thông báo về kế hoạch và mục đích của họp, bạn có thể làm theo những bước sau để tránh bất kỳ sự xao lãng nào:
▪ Giới thiệu và xem lại những tin nhắn mấu chốt,
▪ Trình bày dữ liệu,
▪ Thảo luận về các quan sát, sự giải thích và định nghĩa dữ liệu,
▪ Ghi chú trong suốt cuộc họp,
▪ Xác định và tổng hợp các bước tiếp theo

Sau cuộc họp
Để dự án và các thành viên tham gia đi theo đúng hướng, chuẩn bị và phân bổ tóm tắt cuộc họp với các bước tiếp theo. Thậm chí bạn có thể tiến hành các bước xa hơn để yêu cầu phản hồi từ thành viên:
▪ Phân bổ các ghi chú hoặc dữ liệu,
▪ Xác nhận các bước tiếp theo và dòng thời gian cho các hoạt động bổ sung,
▪ Yêu cầu phản hồi


Course 3 – Prepare Data for Exploration

Week 1 – Data types and structures

Week 2 – Bias, credibility, privacy, ethics, and access

Week 3 – Database: Where data lives

Week 4 – Organizing and protecting your data

Week 5 – Engaging in the data community (optional)


Course 4 – Process Data from Dirty to Clean

Week 1 – The importance of intergrity

Week 2 – Sparkling-clean data

Week 3 – Cleaning data with SQL

Week 4 – Verify and report on your cleaning results

Week 5 – Optional: Adding data to your resume


Course 5 – Analyze Data to Answer Questions

Week 1 – Organizing data to begin analysis

Week 2 – Formatting and adjusting data

Week 3 – Aggregating data for analysis

Week 4 – Performing data calculations


Course 6 – Share Data through the Art of Visualization

Week 1 – Visualizing data

Week 2 – Creating data visualizations with Tableau

Week 3 – Crafting data stories

Week 4 – Developing presentations and slideshows


Course 7 – Data Analysis with R Programming

Week 1 – Programming and data analytics

Week 2 – Programming using RStudio

Week 3 – Working with data in R

Week 4 – More about visualizations, aesthetics, and annotations

Week 5 – Documentation and reports


Course 8 – Google Data Analytics Capstone: Complete a Case Study

Week 1 – Learn about capstone basic

Week 2 – Building your portfolio

Week 3 – Using your portfolio (optional)

Week 4 – Putting your certificate to work

Leave a comment