Загрузка документов

1. Что делает document loader в RAG

Document loader – это "адаптер" между сырым источником данных (сайт, PDF, Notion, GitHub, YouTube и т.д.) и стандартным форматом Document, с которым дальше работает вся RAG-цепочка.

В LangChain все лоадеры реализуют общий интерфейс BaseLoader и, по сути, дают две операции

На уровне лоадера ты уже можешь контролировать качество сырья.


2. Какие ещё бывают лоадеры

LangChain делит лоадеры на file loaders и web loaders, плюс отдельные интеграции с облаком, продуктами и поиском.

Основные категории

Document loaders - Docs by LangChain


3. Оптимизация кода

Текущий код

from langchain_community.document_loaders import WebBaseLoader
import os

os.environ["USER_AGENT"] = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)"

loader = WebBaseLoader('<https://antarcticwallet.com/faq>')
docs = loader.load()

Что делает код