Phần này mô tả cách kiểm tra các tệp siêu dữ liệu khác nhau để tìm sự rò rỉ thông tin của (các) đường dẫn hoặc chức năng của ứng dụng web. Hơn nữa, danh sách các thư mục cần tránh bởi Spiders, Robots hoặc Crawlers cũng có thể được tạo như một phần phụ thuộc cho các đường dẫn thực thi Bản đồ thông qua ứng dụng. Các thông tin khác cũng có thể được thu thập để xác định bề mặt tấn công, chi tiết công nghệ hoặc để sử dụng trong quá trình tham gia kỹ thuật xã hội.
Mục tiêu kiểm tra Webserver Metafiles
Xác định các đường dẫn và chức năng ẩn hoặc bị xáo trộn thông qua phân tích các tệp siêu dữ liệu.
Trích xuất và lập bản đồ thông tin khác có thể giúp hiểu rõ hơn về các hệ thống hiện có.
Xem thêm Hướng dẫn cơ bản về robots.txt
Làm thế nào để kiểm tra Webserver Metafiles
Bất kỳ hành động nào được thực hiện bên dưới với wget cũng có thể được thực hiện với curl. Nhiều công cụ Kiểm tra bảo mật ứng dụng động (DAST) như ZAP và Burp Suite bao gồm kiểm tra hoặc phân tích cú pháp cho các tài nguyên này như một phần của chức năng trình thu thập thông tin / trình thu thập thông tin của chúng. Chúng cũng có thể được xác định bằng cách sử dụng Google Dorks khác nhau hoặc tận dụng các tính năng tìm kiếm nâng cao như inurl :.
- Robot.txt
Web Spiders, Robots hoặc Crawlers truy xuất một trang web và sau đó duyệt đệ quy các siêu liên kết để truy xuất nội dung web khác. Hành vi được chấp nhận của họ được chỉ định bởi Giao thức loại trừ rô bốt của tệp robots.txt trong thư mục gốc của web.
Ví dụ: phần đầu của tệp robots.txt từ Google được lấy mẫu vào ngày 5 tháng 5 năm 2020 được trích dẫn bên dưới:
Chỉ thị User-Agent đề cập đến spider / rô bốt / trình thu thập thông tin cụ thể. Ví dụ: User-Agent: Googlebot đề cập đến trình thu thập dữ liệu từ Google trong khi User-Agent: bingbot đề cập đến trình thu thập thông tin từ Microsoft. User-Agent: * trong ví dụ trên áp dụng cho tất cả trình thu thập dữ liệu web / robot / trình thu thập thông tin.
Lệnh Không cho phép chỉ định tài nguyên nào bị nhện / rô bốt / trình thu thập thông tin cấm. Trong ví dụ trên, những điều sau bị cấm:
Trình thu thập dữ liệu web / rô bốt / trình thu thập thông tin có thể cố ý bỏ qua các lệnh Không cho phép được chỉ định trong tệp robots.txt, chẳng hạn như các lệnh từ Mạng xã hội để đảm bảo rằng liên kết được chia sẻ vẫn hợp lệ. Do đó, robots.txt không nên được coi là một cơ chế để thực thi các hạn chế về cách nội dung web được các bên thứ ba truy cập, lưu trữ hoặc xuất bản lại.
Tệp robots.txt được truy xuất từ thư mục gốc của máy chủ web. Ví dụ: để truy xuất robots.txt từ www.google.com bằng cách sử dụng wget hoặc curl:
$ curl -O -Ss http://www.google.com/robots.txt && head -n5 robots.txt
Phân tích robots.txt bằng Công cụ Quản trị Trang web của Google
Chủ sở hữu trang web có thể sử dụng chức năng “Phân tích robots.txt” của Google để phân tích trang web như một phần của Công cụ quản trị trang web của Google. Công cụ này có thể hỗ trợ kiểm tra và quy trình như sau:
- Đăng nhập vào Công cụ quản trị trang web của Google bằng tài khoản Google.
- Trên trang tổng quan, hãy nhập URL của trang web cần phân tích.
- Chọn giữa các phương pháp có sẵn và làm theo hướng dẫn trên màn hình.
Xem thêm Noindex và nofollow & Disallow
Thẻ META
Các thẻ <META> nằm trong phần HEAD của mỗi tài liệu HTML và phải nhất quán trên một trang web trong trường hợp điểm bắt đầu của rô bốt / trình thu thập thông tin / trình thu thập thông tin không bắt đầu từ một liên kết tài liệu không phải webroot, tức là một liên kết sâu. Chỉ thị rô bốt cũng có thể được chỉ định thông qua việc sử dụng thẻ META cụ thể.
Thẻ META của rô bốt
Nếu không có mục nhập <META NAME = “ROBOTS” …> thì “Giao thức loại trừ rô bốt” được mặc định thành INDEX, FOLLOW tương ứng. Do đó, hai mục nhập hợp lệ khác được xác định bởi “Giao thức loại trừ rô bốt” có tiền tố là NO … tức là NOINDEX và NOFOLLOW.
Dựa trên (các) chỉ thị Không cho phép được liệt kê trong tệp robots.txt trong webroot, tìm kiếm biểu thức chính quy cho <META NAME = “ROBOTS” trong mỗi trang web được thực hiện và kết quả được so sánh với tệp robots.txt trong webroot.
Xem thêm Lấy thông tin website từ công cụ tìm kiếm
Các thẻ thông tin khác về META
Các tổ chức thường nhúng các thẻ META thông tin vào nội dung web để hỗ trợ các công nghệ khác nhau như trình đọc màn hình, xem trước mạng xã hội, lập chỉ mục công cụ tìm kiếm, v.v. Những siêu thông tin như vậy có thể có giá trị đối với người kiểm tra trong việc xác định các công nghệ được sử dụng và các đường dẫn / chức năng bổ sung để khám phá và thử nghiệm. Thông tin meta sau được truy xuất từ www.whitehouse.gov qua Nguồn Xem trang vào ngày 05 tháng 5 năm 2020:
Xem thêm Tối ưu hóa meta description
Sơ đồ trang web
Sơ đồ trang web là một tệp trong đó nhà phát triển hoặc tổ chức có thể cung cấp thông tin về các trang, video và các tệp khác do trang web hoặc ứng dụng cung cấp và mối quan hệ giữa chúng. Các công cụ tìm kiếm có thể sử dụng tệp này để khám phá trang web của bạn một cách thông minh hơn. Người kiểm tra có thể sử dụng tệp sitemap.xml để tìm hiểu thêm về trang web hoặc ứng dụng để khám phá trang web hoặc ứng dụng đó một cách hoàn chỉnh hơn.
Đoạn trích sau đây là từ sơ đồ trang web chính của Google được truy xuất vào ngày 05 tháng 5 năm 2020.
$ wget –no-verbose https://www.google.com/sitemap.xml && head -n8 sitemap.xml
2020-05-05 12:23:30 URL: https: //www.google.com/sitemap.xml [2049] -> “sitemap.xml” [1]
Khám phá từ đó, người thử nghiệm có thể muốn truy xuất sơ đồ trang web gmail https://www.google.com/gmail/sitemap.xml:
Security TXT
security.txt là một tiêu chuẩn được đề xuất cho phép các trang web xác định các chính sách bảo mật và chi tiết liên hệ. Có nhiều lý do khiến điều này có thể được quan tâm trong các tình huống thử nghiệm, bao gồm nhưng không giới hạn ở:
- Xác định các con đường hoặc nguồn lực tiếp theo để đưa vào khám phá / phân tích.
- Thu thập thông tin tình báo Nguồn mở.
- Tìm kiếm thông tin về Bug Bounties, v.v.
- Social Engineering.
Tệp có thể nằm trong thư mục gốc của máy chủ web hoặc trong thư mục .well-known /.:
- https://example.com/security.txt
- https://example.com/.well-known/security.txt
Đây là một ví dụ thực tế được lấy từ LinkedIn 2020 vào ngày 05 tháng 5:
Xem thêm Thẻ meta trong html
People.txt
people.txt là một sáng kiến để biết những người đứng sau một trang web. Nó có dạng một tệp văn bản chứa thông tin về những người khác nhau đã góp phần xây dựng trang web. Xem văn bản của con người để biết thêm thông tin. Tệp này thường (mặc dù không phải luôn luôn) chứa thông tin về các trang web / đường dẫn nghề nghiệp hoặc việc làm.
Ví dụ sau được truy xuất từ Google 2020 vào ngày 05 tháng 5:
Các nguồn thông tin nổi tiếng khác
Có các RFC và bản nháp Internet khác đề xuất cách sử dụng các tệp được tiêu chuẩn hóa trong thư mục .well-known /. Danh sách trong số đó có thể được tìm thấy ở đây hoặc ở đây.
Sẽ khá đơn giản để người thử nghiệm xem xét RFC / bản nháp là tạo một danh sách để cung cấp cho trình thu thập thông tin hoặc trình làm mờ, để xác minh sự tồn tại hoặc nội dung của các tệp đó.
- Web Browser
- curl
- wget
- Burp Suite
- ZAP
Xem thêm Cách làm bài viết nổi bật trong kết quả tìm kiếm