Chào các bạn,
Tôi vừa giải nén xong tập tin nén chứa dữ liệu toàn bộ diễn đàn Duolingo
Tôi lấy từ web duolingo.hobune.stream
người chủ quản trang đó và cũng là người tạo file nén lưu trữ dữ liệu
diễn đàn đã cho tôi hướng dẫn để phân loại các bài viết theo diễn đàn,
và tôi đã giải nén tất cả các bài viết thuộc diễn đàn 894 (Việt Nam)
Đối với hầu hết các bạn thì đống dữ liệu này không có ích lắm :)) nhưng
tôi đang làm một vài đoạn mã để xem lại dữ liệu diễn đàn dễ hơn.
Cái thư này cũng là để lưu trữ.
Tôi đã nén theo 3 định dạng: gz, bz2 và xz, trong đấy gz cổ nhất
và cũng có sẵn nhất, bz2 và xz ít có sẵn hơn nhưng nén mạnh hơn
Trên windows 10 hiện có đi kèm tar + gz, bạn có thể tải tập tin
_894.gz và giải nén: tar xpzf _894.gz
Trên UNIX, có khả năng là bz2 và xz sẽ có sẵn. Nếu không hãy dùng gz.
vì trẻ em suốt đời,
someone