Document loader – это "адаптер" между сырым источником данных (сайт, PDF, Notion, GitHub, YouTube и т.д.) и стандартным форматом Document, с которым дальше работает вся RAG-цепочка.
В LangChain все лоадеры реализуют общий интерфейс BaseLoader и, по сути, дают две операции
load() – загрузить документы как есть;loadAndSplit() – загрузить и сразу нарезать на мелкие куски.На уровне лоадера ты уже можешь контролировать качество сырья.
LangChain делит лоадеры на file loaders и web loaders, плюс отдельные интеграции с облаком, продуктами и поиском.
Основные категории
Document loaders - Docs by LangChain
from langchain_community.document_loaders import WebBaseLoader
import os
os.environ["USER_AGENT"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)"
loader = WebBaseLoader('<https://antarcticwallet.com/faq>')
docs = loader.load()
USER_AGENT, чтобы сайт не думал, что ты бот.WebBaseLoader скачивает одну HTML-страницу /faq.