Tài Liệu Dạy Học Vật Lý 9 Tập 2

0 views
Skip to first unread message

Eva Dunckel

unread,
Aug 5, 2024, 7:52:54 AM8/5/24
to ercesgolo
Khodữ liệu, hồ dữ liệu v tập hợp dữ liệu l cc giải php lưu trữ đm my khc nhau. Kho dữ liệu lưu trữ dữ liệu ở định dạng c cấu trc. Đ l kho lưu trữ tập trung chứa dữ liệu đ được xử l trước cho hoạt động phn tch v cung cấp thng tin kinh doanh. Tập hợp dữ liệu l kho dữ liệu phục vụ nhu cầu của một đơn vị cụ thể trong doanh nghiệp, chẳng hạn như bộ phận ti chnh, tiếp thị hoặc kinh doanh của cng ty. Mặt khc,hồ dữ liệu l kho lưu trữ tập trung chứa dữ liệu th v dữ liệu phi cấu trc. Bạn c thể lưu trữ dữ liệu trước v xử l dữ liệu đ sau.

Ngy nay, cc tổ chức c quyền truy cập vo khối lượng dữ liệu ngy cng tăng. Tuy nhin, họ phải sắp xếp, xử l, lọc v phn tch dữ liệu th để thu được lợi ch thiết thực. Đồng thời, họ cũng phải tun theo cc biện php bảo mật v bảo vệ dữ liệu nghim ngặt để tun thủ quy định. V dụ: đy l cc hoạt động m cc tổ chức phải tun theo:


Cc tổ chức sử dụng cc cng cụ v giải php khc nhau để c được kết quả phn tch dữ liệu. Kho dữ liệu, tập hợp dữ liệu v hồ dữ liệu đều l những giải php gip lưu trữ dữ liệu.


Kho dữ liệu l cơ sở dữ liệu quan hệ lưu trữ dữ liệu từ cc hệ thống giao dịch v ứng dụng chức năng kinh doanh. Tất cả dữ liệu trong kho được cấu trc hoặc dựng m hnh sẵn thnh cc bảng. Cấu trc dữ liệu v lược đồ được thiết kế để tối ưu ha cho cc truy vấn SQL nhanh. Tập hợp dữ liệu l một thuật ngữ tiếp thị khc cho cng một cng nghệ. Đ cũng l một cơ sở dữ liệu quan hệ nhưng cch sử dụng thực tế khc rất nhiều so với cch sử dụng kho dữ liệu. Cc điểm khc biệt chnh được liệt k dưới đy.


Kho dữ liệu c nhiều nguồn, cả bn trong lẫn bn ngoi. Bạn c thể trch xuất dữ liệu từ mọi nơi, chuyển đổi dữ liệu thnh định dạng c cấu trc v tải dữ liệu đ vo kho của mnh. Tập hợp dữ liệu c t nguồn dữ liệu hơn v thường c kch thước nhỏ hơn.


Kho dữ liệu thường lưu trữ dữ liệu từ nhiều đơn vị kinh doanh. Chng tch hợp dữ liệu một cch tập trung trn ton tổ chức để phn tch ton diện. Tập hợp dữ liệu tập trung vo một chủ đề v c tnh chất phi tập trung hơn. Chng thường lọc v tm tắt thng tin từ một kho dữ liệu hiện c khc.


Nhiều người dng v dự n yu cầu dữ liệu được lưu trữ trong kho dữ liệu. Do đ, kho dữ liệu thường c tuổi thọ cao hơn v phức tạp hơn về bản chất. Tri lại, tập hợp dữ liệu c thể tập trung vo dự n với cch sử dụng hạn chế. Cc nhm ưu tin tạo tập hợp dữ liệu từ kho dữ liệu doanh nghiệp v chấm dứt tập hợp dữ liệu sau khi trường hợp sử dụng kết thc.


Cc nh khoa học dữ liệu sử dụng phương php từ trn xuống dưới khi thiết kế kho dữ liệu. Họ ln kế hoạch kiến trc tổng thể trước v giải quyết cc thch thức khi c pht sinh. Tuy nhin, với tập hợp dữ liệu, kỹ sư dữ liệu đ biết cc chi tiết như gi trị, kiểu dữ liệu v nguồn dữ liệu ngoi. Họ c thể lập kế hoạch triển khai ngay từ đầu v p dụng cch tiếp cận từ dưới ln trn để thiết kế tập hợp dữ liệu.


Kho dữ liệu v hồ dữ liệu l hai cng nghệ c lin quan nhưng khc nhau về cơ bản. Trong khi kho dữ liệu lưu trữ dữ liệu c cấu trc, hồ dữ liệu l kho lưu trữ tập trung cho php bạn lưu trữ bất kỳ dữ liệu no ở bất kỳ quy m no. Hồ dữ liệu cung cấp nhiều ty chọn lưu trữ hơn, phức tạp hơn v c cc trường hợp sử dụng khc so với kho dữ liệu. Cc điểm khc biệt chnh được liệt k dưới đy.


Cả hồ dữ liệu v kho dữ liệu đều c thể c nguồn dữ liệu khng giới hạn. Tuy nhin, kho dữ liệu yu cầu bạn thiết kế lược đồ của mnh trước khi lưu dữ liệu. Bạn chỉ c thể tải dữ liệu c cấu trc vo hệ thống. Ngược lại, hồ dữ liệu khng c yu cầu như vậy. Chng c thể lưu trữ dữ liệu phi cấu trc v bn cấu trc, chẳng hạn như bản ghi my chủ trang web, lượt nhấp chuột, mạng x hội v dữ liệu cảm biến.


Kho dữ liệu thường yu cầu tiền xử l trước khi lưu trữ. Cc cng cụ Trch xuất, chuyển đổi, tải (ETL) được sử dụng để lm sạch, lọc v cấu trc cc tập dữ liệu trước đ. Ngược lại, hồ dữ liệu chứa bất kỳ dữ liệu no. Bạn c thể linh hoạt lựa chọn c muốn thực hiện tiền xử l hay khng. Cc tổ chức thường sử dụng cc cng cụ Trch xuất, tải, chuyển đổi (ELT). Họ tải dữ liệu trong hồ dữ liệu trước v chỉ chuyển đổi dữ liệu khi được yu cầu.


Kho dữ liệu thường đng tin cậy hơn v bạn c thể thực hiện xử l trước. Một số chức năng như khử trng lặp, sắp xếp, tm tắt v xc minh c thể được thực hiện trước để đảm bảo độ chnh xc của dữ liệu. Dữ liệu trng lặp hoặc sai v chưa được xc minh c thể nằm trong hồ dữ liệu nếu khng c hoạt động kiểm tra trước thời hạn.


Kho dữ liệu được thiết kế để c hiệu năng truy vấn nhanh nhất. Người dng doanh nghiệp ưu tin kho dữ liệu hơn để tạo bo co hiệu quả hơn. Ngược lại, kiến trc hồ dữ liệu ưu tin dung lượng lưu trữ v chi ph hơn hiệu năng. Bạn c được dung lượng lưu trữ cao hơn nhiều với chi ph thấp hơn v vẫn c thể truy cập dữ liệu ở tốc độ hợp l.


Hầu hết cc tổ chức lớn sử dụng kết hợp hồ dữ liệu, kho dữ liệu v tập hợp dữ liệu trong cơ sở hạ tầng lưu trữ của họ. Thng thường, tất cả dữ liệu được nhập vo hồ dữ liệu, sau đ được tải vo cc kho dữ liệu v tập hợp dữ liệu khc nhau cho cc trường hợp sử dụng khc nhau. Quyết định về cng nghệ phụ thuộc vo nhiều yếu tố khc nhau như được giải thch dưới đy.


Ni chung, hồ dữ liệu mang lại tnh linh hoạt cao hơn với chi ph thấp hơn. Cc nhm khc nhau c thể truy cập vo cng một dữ liệu bằng cch sử dụng cc cng cụ v khung phn tch m họ lựa chọn. Bạn c thể tiết kiệm thời gian v khng cần xc định cấu trc dữ liệu, lược đồ v quy trnh chuyển đổi.


Kho dữ liệu sẽ ph hợp hơn nếu bạn muốn lưu trữ dữ liệu quan hệ như dữ liệu khch hng v dữ liệu quy trnh kinh doanh. Nếu bạn c khối lượng lớn dữ liệu quan hệ, th nhm của bạn c thể cn nhắc tạo một số tập hợp dữ liệu cho cc nhu cầu kinh doanh cụ thể. V dụ: bộ phận khch hng c thể tạo một tập hợp dữ liệu để duy tr bảng cn đối kế ton v chuẩn bị bo co ti khoản khch hng, trong khi bộ phận tiếp thị c thể tạo một kho dữ liệu khc để tối ưu ha cc chiến dịch quảng co.


Kho dữ liệu c thể xử l hiệu quả hng trăm petabyte (PB) dữ liệu. Hồ dữ liệu cung cấp chi ph tương đối thấp hơn cho dung lượng lớn hơn, đặc biệt đối với số lượng lớn hnh ảnh v video. Tuy nhin, khng phải cũng đều cần đến mức quy m đ.


AWS mang đến lựa chọn dịch vụ phn tch đa dạng nhất, ph hợp với mọi nhu cầu phn tch dữ liệu của bạn. Chng ti gip cc ngnh v tổ chức thuộc mọi quy m ti tạo lại hoạt động kinh doanh của họ bằng dữ liệu. Sau đy l v dụ về những cch bạn c thể sử dụng AWS:


Cc cng cụ tm kiếm chứa những cấu trc dữ liệu chuyn dụng để tạo điều kiện tm kiếm dung lượng lớn với độ trễ thấp. Điều quan trọng nhất của những cấu trc ny l chỉ mục đảo ngược đng vai tr nh xạ cc thuật ngữ ring lẻ vo danh sch cc ti liệu chứa những thuật ngữ đ. Nhờ những cấu trc dữ liệu ny, cc cng cụ tm kiếm hoạt động tốt hơn so với cơ sở dữ liệu quan hệ trong qu trnh xử l truy vấn. Đổi lại, cc cng cụ tm kiếm khng mang tnh quan hệ. Cơ sở dữ liệu quan hệ v cng cụ tm kiếm thường được sử dụng song song. Bạn sử dụng cơ sở dữ liệu quan hệ để cung cấp dữ liệu ứng dụng, đồng thời, cng cụ tm kiếm được dng để thực hiện tm kiếm lin quan với độ trễ thấp trong dữ liệu đ.


Ứng dụng của cng cụ tm kiếm được chia thnh ba loại lớn: tm kiếm ti liệu, hoạt động chủ yếu trn văn bản tự do phi cấu trc; tm kiếm thương mại điện tử, hoạt động trn cả dữ liệu c cấu trc v phi cấu trc; v giảm tải truy vấn, hoạt động chủ yếu trn dữ liệu c cấu trc.


Trong cc trường hợp sử dụng tnh năng tm kiếm ti liệu, phần nội dung của cc ti liệu (tập ngữ liệu) xuất pht từ nội dung do người dng tạo hoặc nội dung chưa được tuyển chọn khc. Nội dung ny thường chứa cc lỗi chnh tả hoặc những lỗi khc, lỗi lặp lại v dữ liệu v nghĩa. Trước khi tải dữ liệu ny vo cng cụ tm kiếm, bạn cần tuyển chọn, lm sạch v chuẩn ha dữ liệu. Sau khi chuẩn bị dữ liệu, bạn cần tải dữ liệu đ vo cng cụ (bằng cch gọi cc API tải nhập). Cuối cng, bạn cần một quy trnh để cập nhật cc ti liệu khi c thay đổi.


Gi trị cốt li của tnh năng tm kiếm ti liệu l truy xuất cc ti liệu lin quan tới truy vấn của người dng, tức l mức độ lin quan của tm kiếm. Trong qu trnh truy xuất, cng cụ tm kiếm sẽ tnh điểm v sắp xếp mọi ti liệu khớp thng qua một php đo lường thống k (BM25). BM25 sử dụng tnh duy nhất của thuật ngữ tm kiếm kết hợp với số lượng của thuật ngữ trong những ti liệu khớp. Cng nhiều lần truy vấn khớp với cng nhiều thuật ngữ duy nhất, điểm sẽ cng cao. Bạn phải điều chỉnh hm tnh điểm cho tập dữ liệu cụ thể của mnh; cc kỹ thuật my học (ML) sẽ gip bạn cải thiện xếp hạng của mnh. Tm kiếm bị giới hạn ở mức độ lin quan của ti liệu m n truy xuất cn bạn th muốn thu được kết quả tốt nhất.

3a8082e126
Reply all
Reply to author
Forward
0 new messages