Загрузка документов

1. Что делает document loader в RAG

Document loader – это "адаптер" между сырым источником данных (сайт, PDF, Notion, GitHub, YouTube и т.д.) и стандартным форматом Document, с которым дальше работает вся RAG-цепочка.

В LangChain все лоадеры реализуют общий интерфейс BaseLoader и, по сути, дают две операции

load() – загрузить документы как есть;
loadAndSplit() – загрузить и сразу нарезать на мелкие куски.

На уровне лоадера ты уже можешь контролировать качество сырья.

2. Какие ещё бывают лоадеры

LangChain делит лоадеры на file loaders и web loaders, плюс отдельные интеграции с облаком, продуктами и поиском.

Основные категории

Document loaders - Docs by LangChain

3. Оптимизация кода

Текущий код

from langchain_community.document_loaders import WebBaseLoader
import os

os.environ["USER_AGENT"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)"

loader = WebBaseLoader('<https://antarcticwallet.com/faq>')
docs = loader.load()

Что делает код

Подменяет USER_AGENT, чтобы сайт не думал, что ты бот.
Через WebBaseLoader скачивает одну HTML-страницу /faq.