Big data là một trong những yếu tố cốt lõi của kỹ thuật số trong cuộc cách mạng công nghiệp 4.0. Vai trò và lợi ích mà nó đem lại là vô cùng lớn, từ lĩnh vực sản xuất, kinh doanh cho đến y tế, giáo dục… Để có cái nhìn tổng quan hơn, hãy cùng FAST tìm hiểu Big data là gì và tại sao nó lại nổi bật đến như vậy.
1. Định nghĩa về Big data
Theo Wikipedia, dữ liệu lớn (Big data) là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư.
Lịch sử của Big data
Nguồn gốc của tập dữ liệu lớn bắt nguồn từ những năm 1960 và 1970 khi thế giới dữ liệu chỉ mới bắt đầu với các trung tâm dữ liệu đầu tiên cùng với sự phát triển của cơ sở dữ liệu SQL.
Khoảng năm 2005, mọi người bắt đầu nhận ra lượng dữ liệu mà người dùng tạo ra thông qua Facebook, YouTube và các dịch vụ trực tuyến khác ngày càng tăng nhanh. Cũng trong năm 2005, Hadoop (một framework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích Big Data) đã được phát triển. Sự phát triển của các framework, ví dụ như Hadoop (hoặc Spark) là cần thiết cho sự phát triển của Big Data. Lý do là vì chúng khiến cho Big Data hoạt động dễ dàng hơn và lưu trữ rẻ hơn.
Khối lượng dữ liệu lớn ngày càng tăng vọt. Điều thú vị là lượng dữ liệu này không chỉ do con người mà còn do máy móc tạo ra. Với sự ra đời của Internet of Things (IoT), nhiều đối tượng và thiết bị được kết nối với internet giúp thu thập dữ liệu về cách sử dụng của người dùng và hiệu suất sản phẩm. IoT xuất hiện đã giúp tạo ra nhiều dữ liệu hơn.
2. Tính đặc trưng của Big data
Dữ liệu lớn có những đặc trưng thể hiện qua 5V như sau:
Volume (Khối lượng dữ liệu): Sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin luôn không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể tìm thấy dữ liệu trong các định dạng video, nhạc, hình ảnh lớn trên các kênh truyền thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng Terabyte và Petabyte.
Velocity (Tốc độ xử lý): Sự tăng trưởng về mặt tốc độ. Tốc độ của Big data được thể hiện qua 2 khía cạnh: (1) Khối lượng dữ liệu gia tăng rất nhanh; (2) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa là dữ liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế – Sức khỏe như hiện nay phần lớn dữ liệu lớn được xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu.
Fast Business Online – Giải pháp ERP có tốc độ xử lý dữ liệu lớn vượt trội
Variety (Đa dạng dữ liệu): Sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ liệu cảm biến. Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ: Chia sẻ một video từ Youtube qua các nền tảng khác như Facebook, Twitter…
Veracity (Tính xác thực): Một trong những tính chất phức tạp nhất của dữ liệu lớn chính là độ tin cậy/tính xác thực. Với xu hướng sử dụng mạng xã hội và phương tiện truyền thông ngày càng tăng, người dùng thường tương tác và chia sẻ lên các trang mạng xã hội làm cho việc xác định độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là vấn đề quan trọng của Big data.
Value (Giá trị dữ liệu): Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big data. Khi bắt đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên cần phải làm đó là xác định được giá trị của thông tin mang lại như thế nào, khi đó mới ra quyết định có nên triển khai dữ liệu lớn hay không. Nếu có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát triển dữ liệu lớn.
3. Phân loại Big data
Có 3 loại chủ yếu trong dữ liệu lớn, bao gồm:
Có cấu trúc
Bất kỳ dữ liệu nào có thể được lưu trữ, truy cập và xử lý ở dạng định dạng cố định được gọi là dữ liệu có cấu trúc. Theo thời gian, khoa học máy tính đã đạt được thành công lớn trong việc phát triển các kỹ thuật làm việc với loại dữ liệu như vậy (nơi định dạng đã được biết trước) và thu được giá trị.
Không cấu trúc
Bất kỳ dữ liệu nào có dạng không xác định hoặc cấu trúc được phân loại là dữ liệu phi cấu trúc. Ngoài kích thước khổng lồ, dữ liệu không có cấu trúc còn đặt ra nhiều thách thức về mặt xử lý để thu được giá trị từ nó. Một ví dụ điển hình của dữ liệu phi cấu trúc là một nguồn dữ liệu không đồng nhất chứa sự kết hợp của các tệp văn bản đơn giản, hình ảnh, video…
Bán cấu trúc
Dữ liệu bán cấu trúc chứa sự kết hợp của dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Đó là dữ liệu chưa được phân loại vào một cơ sở dữ liệu cụ thể nhưng chứa các thẻ quan trọng phân tách các phần tử riêng lẻ trong cùng một cơ sở dữ liệu. Ví dụ, một định nghĩa bảng trong DBMS quan hệ có dữ liệu bán cấu trúc.
>> XEM NGAY: TOP các phần mềm ERP TỐT NHẤT hiện nay
4. Phân tích dữ liệu là gì?
Phân tích dữ liệu là trí tuệ thực sự được khai thác từ các nguồn thông tin lớn. Nếu không có phân tích, dữ liệu chỉ là một bộ số liệu cô đơn, không thể hiện rõ giá trị thực sự trong kinh doanh.
Khi khai thác dữ liệu lớn, doanh nghiệp mở ra cánh cửa cho việc tăng doanh thu, cải thiện dịch vụ khách hàng, tăng hiệu suất hoạt động và cải thiện khả năng cạnh tranh.
Phân tích dữ liệu không chỉ đơn giản là việc xem xét các số liệu, mà còn là quá trình khám phá thông tin chi tiết hoặc dự đoán về hướng đi tương lai từ những tập dữ liệu đó.
Nắm bắt thông tin từ phân tích dữ liệu, tổ chức có thể đưa ra những quyết định kinh doanh chiến lược hơn: lựa chọn thời điểm và địa điểm phù hợp cho chiến dịch tiếp thị, hay giới thiệu sản phẩm, dịch vụ mới một cách khoa học và hiệu quả hơn.
Phân tích dữ liệu có thể là cầu nối đến các ứng dụng kinh doanh thông minh và tiên tiến hơn. Nó mang lại khả năng dự đoán giống như những ứng dụng mà các tổ chức khoa học sử dụng.
Một trong những hình thức phân tích dữ liệu cao cấp nhất là khai thác dữ liệu (data mining), nơi các nhà phân tích đánh giá các bộ dữ liệu lớn để xác định mối quan hệ, mô hình và xu hướng.
Phân tích dữ liệu có thể bao gồm cả việc sử dụng phương pháp khám phá dữ liệu (exploratory data analysis) để tìm ra mẫu và quan hệ trong dữ liệu, cũng như áp dụng các kỹ thuật thống kê trong việc xác minh giả thiết về tính chính xác của một bộ dữ liệu.
Một phạm trù khác của phân tích dữ liệu là phân tích dữ liệu định lượng (quantitative analysis), nơi chú trọng vào các dữ liệu số có thể so sánh thống kê, so với phân tích dữ liệu định tính (qualitative data analysis) tập trung vào dữ liệu không phải là dữ liệu số như video, hình ảnh và văn bản.
5. Cơ sở hạ tầng IT để hỗ trợ big data
Để làm việc với khái niệm dữ liệu lớn (big data), các tổ chức cần có cơ sở hạ tầng phù hợp để thu thập, lưu trữ và bảo vệ thông tin trong quá trình xử lý và truyền tải.
Ở mức cao, cơ sở hạ tầng này bao gồm hệ thống lưu trữ và máy chủ được thiết kế đặc biệt cho dữ liệu lớn, phần mềm quản lý và tích hợp dữ liệu, thông tin kinh doanh và các ứng dụng phân tích dữ liệu.
Phần lớn cơ sở hạ tầng này thường tập trung tại một vị trí duy nhất, để tận dụng các đầu tư vào trung tâm dữ liệu của họ. Tuy nhiên, ngày càng nhiều tổ chức chuyển đổi sang sử dụng dịch vụ đám mây để xử lý các yêu cầu về dữ liệu lớn của họ. Điều này giúp họ tiết kiệm chi phí và tận dụng được linh hoạt cũng như tiện ích của công nghệ điện toán đám mây.
Để thu thập dữ liệu, các nguồn thông tin là không thể thiếu. Rất nhiều ứng dụng như web, mạng xã hội, ứng dụng di động và email đã có sẵn dữ liệu.
Tuy nhiên, với sự phổ biến của IoT, các công ty có thể cần triển khai cảm biến trên đa dạng thiết bị, phương tiện và sản phẩm để thu thập dữ liệu, bên cạnh việc tạo ra dữ liệu từ các ứng dụng mới hướng người dùng. Phân tích dữ liệu theo hướng IoT có các kỹ thuật và công cụ riêng.
Để lưu trữ tất cả dữ liệu này, tổ chức cần có dung lượng lưu trữ đủ lớn. Các tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, data lakes và lưu trữ trên đám mây.
Để bảo vệ dữ liệu và hệ thống, các công cụ cơ sở hạ tầng bảo mật có thể bao gồm mã hóa dữ liệu, xác thực người dùng, các công cụ giám sát, tường lửa, quản lý di động doanh nghiệp và các sản phẩm khác.
6. Các công nghệ đặc biệt dành cho Big Data
7. Ứng dụng Big data trong các lĩnh vực
Trong giao thông
Sử dụng số liệu CDR trong quá khứ để ước lượng các dòng giao thông trong thành phố vào các giờ cao điểm, từ đó có những kế hoạch phân luồng giao thông chi tiết, hợp lý giúp giảm thiểu kẹt xe. Ngoài ra còn đưa ra thông tin cho người tham gia giao thông được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi vào giờ nào để tránh kẹt xe, hoặc đi đường nào là ngắn nhất… Ngoài ra, dữ liệu lớn còn giúp phân tích định vị người dùng thiết bị di động, ghi nhận chi tiết cuộc gọi trong thời gian thực và giảm thiểu tình trạng ùn tắc giao thông.
Y tế, chăm sóc sức khỏe
Trong y học các bác sĩ dựa vào số liệu trong các bệnh án để đưa ra dự đoán về nguy cơ mắc bệnh. Đồng thời cũng đưa ra được xu hướng lây lan của bệnh. Dữ liệu của bệnh nhân được lưu trữ trong cơ sở dữ liệu an toàn và bảo mật. Các chuyên gia y tế có thể theo dõi lịch sử của bệnh nhân, liên kết với những ứng dụng theo dõi sức khỏe mà bệnh nhân và người điều trị của họ có quyền truy cập.
Kinh doanh
Trong hoạt động kinh doanh, dữ liệu lớn giúp cho chúng ta thực hiện được một số công việc sau: Phân khúc thị trường và khách hàng; phân tích hành vi khách hàng tại cửa hàng; tiếp thị trên nền tảng định vị; phân tích tiếp thị đa kênh; quản lý các chiến dịch tiếp thị và khách hàng thân thiết; so sánh giá; phân tích và quản lý chuỗi cung ứng; phân tích hành vi, thói quen người tiêu dùng…
Sản xuất
Trong ngành sản xuất, big data giúp lập mô hình dự đoán để duy trì việc ra quyết định, tiêu thụ và báo cáo bằng dữ liệu đồ họa, văn bản, dữ liệu theo thời gian.
Các ứng dụng của dữ liệu lớn trong sản xuất: Theo dõi chất lượng sản phẩm, lập kế hoạch cung cấp, theo dõi lỗi trong quá trình sản xuất, dự đoán sản lượng, tăng hiệu quả sử dụng năng lượng, thử nghiệm các quy trình sản xuất mới, phát triển quy trình sản xuất mới.
Ngân hàng
Big data có lợi ích rất lớn trong việc phát hiện gian lận trong hệ thống ngân hàng. Big data sẽ xác định các hoạt động bất hợp pháp đang xảy ra, giúp xác định việc lạm dụng thẻ tín dụng, thẻ ghi nợ, việc sửa đổi số liệu thống kê khách hàng, kiểm tra độ chính xác trong số liệu kinh doanh, phân tích công khai hoạt động kinh doanh.
8. Big data và analytics
Điều thực sự mang lại giá trị từ các tổ chức dữ liệu lớn là phân tích dữ liệu. Nếu không có phân tích, dữ liệu chỉ là một tập hợp có hạn sử dụng trong kinh doanh.
Bằng cách phân tích dữ liệu lớn, các công ty có thể đạt được những lợi ích như tăng doanh thu, cải thiện dịch vụ khách hàng, tăng hiệu quả và nâng cao khả năng cạnh tranh.
Phân tích dữ liệu liên quan đến việc kiểm tra bộ dữ liệu để thu thập thông tin chi tiết hoặc rút ra kết luận về những gì chúng chứa, bao gồm các xu hướng và dự đoán về hoạt động trong tương lai.
Bằng cách phân tích dữ liệu, các tổ chức có thể đưa ra các quyết định kinh doanh tốt hơn, như quyết định khi nào và ở đâu nên triển khai chiến dịch tiếp thị hoặc giới thiệu một sản phẩm hoặc dịch vụ mới.
Sự phân tích có thể tham khảo các ứng dụng kinh doanh thông minh hoặc tiên tiến hơn. Phép phân tích dự đoán như ứng dụng được các tổ chức khoa học sử dụng.
Loại phân tích dữ liệu cao cấp nhất là khai thác dữ liệu (data mining), nơi các nhà phân tích đánh giá các bộ dữ liệu lớn để xác định mối quan hệ, mô hình và xu hướng.
Phân tích dữ liệu có thể bao gồm phân tích dữ liệu thăm dò (để xác định các mẫu và mối quan hệ trong dữ liệu) và phân tích dữ liệu xác nhận (áp dụng các kĩ thuật thống kê để tìm ra giả thiết về một bộ dữ liệu có đúng hay không).
Một mảng khác là phân tích dữ liệu định lượng (hoặc phân tích dữ liệu số có các biến có thể so sánh theo thống kê) so với phân tích dữ liệu định tính (tập trung vào các dữ liệu không phải là dữ liệu cá nhân như video, hình ảnh và văn bản).
9. Tích hợp Big data với hệ thống ERP
Big data có tác động tích cực đến hệ thống ERP và mang lại sự chuyển đổi của doanh nghiệp, cho phép các doanh nghiệp cải tiến quy trình và nâng cao doanh thu một cách đáng kể. Các quy trình nội bộ được sắp xếp hợp lý, dẫn đến một mô hình làm việc hiệu quả cao.
Các công cụ phân tích dữ liệu lớn và hệ thống ERP khi được kết hợp với nhau có khả giúp các doanh nghiệp đưa ra quyết định thông minh hơn dựa trên kết quả tổng hợp dữ liệu. Trên thực tế, phân tích dữ liệu lớn trong ERP có một vai trò quan trọng trong việc nâng cao khả năng của ERP và tận dụng tối đa hệ thống ERP.
[Giới thiệu giải pháp ERP Fast Business Online]
Nguồn tham khảo:
1. Analytixlabs.co.in: What Are the Key Characteristics of Big Data?
2. Oracle.com: What is Big data?
3. Insightssuccess.com: Big Data Applications in Various Fields