Lưu trữ Twitter: Thư viện Quốc hội sẽ ưu tiên các tweet mang tính lịch sử
Bối cảnh
Năm 2010, Thư viện Quốc hội (LOC) đã ký một thỏa thuận với Twitter để lưu trữ mọi tweet công khai từng được gửi. Dự án đầy tham vọng này nhằm mục đích bảo tồn một kho lưu trữ khổng lồ về bình luận xã hội và truyền thông cho các thế hệ tương lai.
Những thách thức của việc lưu trữ dữ liệu Twitter
Trong những năm qua, đã có một số thách thức nảy sinh trong việc quản lý kho lưu trữ Twitter.
- Khối lượng và kích thước của các tweet: Số lượng tweet đã tăng theo cấp số nhân, khiến việc lưu trữ và xử lý dữ liệu ngày càng trở nên khó khăn. Vào năm 2010, người dùng Twitter đã gửi khoảng 50 triệu tweet mỗi ngày. Ngày nay, con số đó đã tăng vọt lên hơn 500 triệu tweet mỗi ngày.
- Bản chất thay đổi của các tweet: Các tweet đã có sự phát triển đáng kể kể từ khi ra mắt. Ban đầu, các tweet bị giới hạn ở mức 140 ký tự và chủ yếu bao gồm văn bản. Tuy nhiên, giới hạn ký tự sau đó đã được mở rộng lên 280 và hiện nay các tweet thường bao gồm hình ảnh, video và ảnh GIF động. LOC chỉ lưu trữ văn bản của các tweet, nghĩa là mất đi một lượng lớn ngữ cảnh.
- Nguồn lực hạn chế: LOC không có đủ nguồn lực hoặc chuyên môn cần thiết để quản lý hiệu quả kho lưu trữ Twitter. Thư viện thiếu các kỹ sư toàn thời gian để xử lý lượng tweet khổng lồ đổ vào, điều này dẫn đến tình trạng chậm trễ đáng kể và các vấn đề trong việc giúp các nhà nghiên cứu tiếp cận kho lưu trữ.
Quyết định ưu tiên lưu trữ các tweet mang tính lịch sử
Trước những thách thức này, LOC đã quyết định ưu tiên lưu trữ các tweet được coi là có tầm quan trọng lịch sử. Quyết định này đã được công bố trong một báo cáo do LOC công bố, trong đó nêu rõ lý do thay đổi chính sách.
LOC thừa nhận rằng Twitter là một nền tảng liên tục phát triển và không thể dự đoán được nền tảng này sẽ tiếp tục thay đổi như thế nào trong tương lai. Mục tiêu của thư viện là thu thập và lưu giữ một mẫu tweet có tính đại diện, có thể cung cấp thông tin chi tiết về bối cảnh xã hội, chính trị và văn hóa của thời đại chúng ta.
Trạng thái hiện tại của kho lưu trữ
Kho lưu trữ tweet hiện tại trong 12 năm không được công khai và LOC vẫn chưa công bố mốc thời gian khi nào kho lưu trữ này có thể được công khai. Thư viện dự định biến kho lưu trữ này thành một bức ảnh chụp nhanh về những năm đầu của truyền thông trên mạng xã hội, tương tự như cách LOC lưu trữ các bức điện tín từ những ngày đầu của công nghệ đó.
Giá trị tiềm ẩn của kho lưu trữ
Các nhà nghiên cứu trong nhiều lĩnh vực khác nhau, bao gồm xã hội học, tâm lý học, khoa học chính trị và truyền thông, đã bày tỏ sự quan tâm đến việc tiếp cận kho lưu trữ Twitter. Họ tin rằng dữ liệu này có thể cung cấp những thông tin chi tiết có giá trị về hành vi của con người, các xu hướng xã hội và diễn ngôn chính trị.
Kết luận
Quyết định của LOC ưu tiên lưu trữ các tweet mang tính lịch sử là sự thừa nhận những thách thức liên quan đến việc quản lý và lưu trữ dữ liệu mạng xã hội. Mặc dù toàn bộ kho lưu trữ vẫn chưa được công khai, nhưng hy vọng rằng cuối cùng LOC sẽ tìm ra cách để các nhà nghiên cứu và công chúng có thể tiếp cận kho lưu trữ này, từ đó giúp chúng ta hiểu sâu hơn về quá khứ và hiện tại kỹ thuật số của mình.