Thuật ngữ Big Data?
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền thống không thể nào đảm đương được. Tuy nhiên, Big Data lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công, nó sẽ giúp rất nhiều cho việc kinh doanh, nghiên cứu khoa học, dự đoán các dịch bệnh sắp phát sinh và thậm chí là cả việc xác định điều kiện giao thông theo thời gian thực. Chính vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ theo một cách khác so với bình thường. Trong bài này, mời các bạn cùng tìm hiểu về Big Data, các phương thức người ta dùng để khai thác nó và nó giúp ích như thế nào cho cuộc sống của chúng ta.
Big Data – Nó có nghĩa là gì?
Theo định nghĩa của Gartner: “Big Data là tài sản thông tin, mà những thông tin này có khối lượng dữ liệu lớn, tốc độ cao và dữ liệu đa dạng, đòi hỏi phải có công nghệ mới để xử lý hiệu quả nhằm đưa ra được các quyết định hiệu quả, khám phá được các yếu tố ẩn sâu trong dữ liệu và tối ưu hóa được quá trình xử lý dữ liệu”
Chúng ta hãy đào sâu hơn và hiểu điều này bằng một cách đơn giản hơn.
Sự tiến bộ của công nghệ, sự ra đời của các kênh truyền thông mới như mạng xã hội và các thiết bị công nghệ mới tiên tiến hơn đã đặt ra thách thức cho các nền công nghiệp khác nhau phải tìm những cách khác để xử lý dữ liệu.
Từ khi hình thành cho tới đến hết năm 2003, toàn thế giới chỉ có khoảng 5 tỷ gigabyte dữ liệu. Cũng một lượng dữ liệu như vậy được tạo ra chỉ trong 2 ngày trong năm 2011. Đến năm 2013, khối lượng dữ liệu này được tạo ra cứ sau mỗi 10 phút. Do đó, không có gì ngạc nhiên khi mà 90% dữ liệu của toàn thế giới hiện nay được tạo ra trong một vài năm qua.
Tất cả những dữ liệu này cực kỳ hữu ích nhưng nó đã bị bỏ bê trước khi thuật ngữ “Big Data” ra đời.
Những nguồn tạo ra big data:
Những nguồn sau đây tạo ra nhiều data và thường xuyên hàng ngày.
- Hộp đen: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay
- Từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+.
- Từ các giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng
- Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng
- Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông
- Từ các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần
Chúng ta có thể lấy các thí nghiệm của Máy gia tốc hạt lớn (LHC) ở Châu Âu làm ví dụ cho Big Data. Khi các thí nghiệm này được tiến hành, kết quả sẽ được ghi nhận bởi 150 triệu cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Kết quả là nếu như LHC ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu sẽ trở nên vô cùng lớn. Nó có thể đạt đến 150 triệu petabyte mỗi năm, hoặc 500 exabyte mỗi ngày. Cao hơn 200 lần so với tất cả các nguồn dữ liệu khác trên thế giới gộp loại.
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt vật chất diễn ra, nhưng sau khi chọn lọc lại từ khoảng 99,999% các luồng dữ liệu đó, chỉ có tầm 100 vụ va chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản LHC phải tìm những biện pháp mới để quản lý và xử lí hết mớ dữ liệu khổng lồ này.
Một ví dụ khác, khi Sloan Digital Sky Sruver, một trạm quan sát vũ trụ đặt tại New Mexico, bắt đầu đi vào hoạt động hồi năm 2000, sau một vài tuần nó đã thu thập dữ liệu lớn hơn tổng lượng dữ liệu mà ngành thiên văn học đã từng thu thập trong quá khứ, khoảng 200GB mỗi đêm và hiện tổng dung lượng đã đạt đến hơn 140 terabyte. Đài quan sát LSST để thay thế cho SDSS dự kiến khánh thành trong năm 2016 thì sẽ thu thập lượng dữ liệu tương đương như trên nhưng chỉ trong vòng 5 ngày.
Hoặc như công tác giải mã di truyền của con người chẳng hạn. Trước đây công việc này mất đến 10 năm để xử lí, còn bây giờ người ta chỉ cần một tuần là đã hoàn thành. Còn Trung tâm giả lập khí hậu của NASA thì đang chứa 32 petabyte dữ liệu về quan trắc thời tiết và giả lập trong siêu máy tính của họ. Việc lưu trữ hình ảnh, văn bản và các nội dung đa phương tiện khác trên Wikipedia cũng như ghi nhận hành vi chỉnh sửa của người dùng cũng cấu thành một tập hợp Big Data lớn.
Còn gì nữa ?
- Hệ thống RFID tạo ra lượng dữ liệu gấp 1000 lần so với mã vạch truyền thống. (RFID là một dạng kết nối tầm gần, như kiểu NFC nhưng có tầm hoạt động xa hơn và cũng là thứ dùng trong thẻ mở cửa khách sạn).
- Chỉ trong vòng 4 giờ của ngày “Black Friday” năm 2012, cửa hàng Walmart đã phải xử lí hơn 10 triệu giao dịch tiền mặt, tức là khoản 5.000 giao diện mỗi giây.
- Dịch vụ chuyển phát UPS nhận khoảng 39,5 triệu yêu cầu từ khách hàng của mình mỗi ngày
- Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà thôi
- Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
Những thành tựu của big data
Phân tích tập dữ hợp liệu có thể tìm ra tương quan mới tới “xu hướng kinh doanh hiện tại, phòng bệnh tật, chống tội phạm và vân vân”. Các nhà khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và các chính phủ cũng thường xuyên gặp những khó khăn với các tập hợp dữ liệu lớn trong các lĩnh vực bao gồm tìm kiếm internet, thông tin tài chính doanh nghiệp. Các nhà khoa học gặp giới hạn trong công việc cần tính toán rất lớn, bao gồm khí tượng học, bộ gen, mạng thần kinh, các mô phỏng vật lý phức tạp, sinh vật học và nghiên cứu môi trường.
Ngày nay, dữ liệu chính là tiền bạc của doanh nghiệp. Lấy ví dụ, những thông tin về thói quen, sở thích của khách hàng có được từ lượng dữ liệu khổng lồ các doanh nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình. Chỉ cần doanh nghiệp biết khai thác hiệu quả, Big Data là công cụ không chỉ giúp tăng lợi nhuận cho chính họ mà còn giúp tiết kiệm thời gian cho khách hàng trong mua sắm.
Nhờ giải pháp Big Data, năm 2013, Amazon đạt doanh thu tới 74 tỷ USD và IBM đạt hơn 16 tỷ USD. Big Data là nhu cầu tăng trưởng lớn đến nỗi từ năm 2010, Software AG, Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỷ USD cho các công ty chuyên về quản lý và phân tích dữ liệu. Với tiềm năng ưu việt, Big Data không chỉ ứng dụng trong kinh doanh mà còn có khả năng tác động đến hầu hết ngành nghề khác. Chính phủ các nước có thể ứng dụng Big Data để dự đoán tỷ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục phù hợp hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế, thậm chí dự đoán sự phát triển của mầm bệnh và khoanh vùng sự lây lan của bệnh dịch. Nói cách khác, Big Data sẽ là công cụ thúc đẩy sự phát triển kinh tế – xã hội trong tương lai. Theo ước tính của Gartner, một công ty nghiên cứu và tư vấn về công nghệ hàng đầu của Mỹ, tới năm 2015 Big Data có thể tạo ra thêm 4,4 triệu việc làm trong ngành IT toàn cầu và trong 5 năm (2012-2017), thế giới sẽ đầu tư 232 tỷ USD cho Big Data.
Thành công điển hình của việc áp dụng công nghệ đại dữ liệu vào kinh doanh là Tesla, hãng đi tiên phong trong việc sản xuất ô tô chạy bằng điện.
Mỗi chiếc xe do Tesla sản xuất đều được gắn một thiết bị cảm biến có khả năng gửi những thông tin liên quan đến vấn đề kỹ thuật, hoạt động của xe trở về nhà sản xuất để xử lý kịp thời những trục trặc nếu có trước khi sự cố xảy ra. Trong một buổi hội nghị của Gartner, CIO Jay Vijayan nói về thực trạng sử dụng Big Data của Tesla: “Nền tảng big data báo cho chúng tôi biết khi nào chiếc xe đang bị lỗi để nhóm kỹ sư kịp thời hành động.”
Bằng việc kết nối với khách hàng thường xuyên, liên tục và trực tiếp, thay vì thông qua bên trung gian, Tesla luôn thu về những dữ liệu chính xác và kịp thời nhất, cho phép họ cải thiện trải nghiệm người dùng và cạnh tranh với những hãng sản xuất ô tô chạy bằng xăng vốn đang rất phổ biến khác.
Kết Luận
Tóm lại, Big Data là thách thức đặt ra cho các tổ chức, doanh nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp hơn. Vẫn còn đó những chỉ trích xoay quanh Big Data, tuy nhiên lĩnh vực này vẫn còn rất mới và đang là xu thế hiện nay, chúng ta hãy chờ xem trong tương lai Big Data sẽ tiến hóa như thế nào nhé.