45-60 minutesIntermediate

How to Set Up RAG Locally

Give AI access to your documents

RAG (Retrieval Augmented Generation) lets LLMs answer questions using your specific documents. Perfect for company knowledge bases, research papers, or personal notes.

Hardware Requirements

GPU VRAMMin: 8GBRec: 16GBLLM + embedding model both need VRAM

System RAMMin: 16GBRec: 32GB

StorageMin: 30GB freeRec: 100GB SSDVector database grows with documents

Step-by-Step Guide

1Install Required Tools

Set up LangChain and a vector database.

pip install langchain chromadb sentence-transformers
pip install llama-cpp-python  # For local LLM

2Load Your Documents

Ingest PDFs, text files, or web pages.

from langchain.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Load documents
loader = DirectoryLoader('./docs', glob="**/*.pdf", loader_cls=PyPDFLoader)
documents = loader.load()

# Split into chunks
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunks = splitter.split_documents(documents)

3Create Vector Database

Embed documents and store in ChromaDB.

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

4Query with RAG

Ask questions about your documents.

from langchain.chains import RetrievalQA
from langchain.llms import LlamaCpp

llm = LlamaCpp(model_path="./models/llama-3-8b.gguf", n_ctx=4096)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
)

answer = qa_chain.run("What does the policy say about refunds?")

Recommended GPUs

Budget

RTX 3060 12GB

Runs 7B LLM + embeddings together.

View GPU

Recommended

RTX 4070 Ti Super 16GB

Faster queries with larger context.

View GPU

Troubleshooting

❓ Irrelevant answers

✅ Improve chunking strategy. Use better embedding models. Increase number of retrieved documents.

❓ Slow retrieval

✅ Use GPU-accelerated embeddings. Consider smaller embedding models for speed.

Step-by-Step Guide

1Install Required Tools

Set up LangChain and a vector database.

pip install langchain chromadb sentence-transformers
pip install llama-cpp-python  # For local LLM

2Load Your Documents

Ingest PDFs, text files, or web pages.

from langchain.document_loaders import DirectoryLoader, PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Load documents
loader = DirectoryLoader('./docs', glob="**/*.pdf", loader_cls=PyPDFLoader)
documents = loader.load()

# Split into chunks
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunks = splitter.split_documents(documents)

3Create Vector Database

Embed documents and store in ChromaDB.

from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma

embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory="./chroma_db"
)

4Query with RAG

Ask questions about your documents.

from langchain.chains import RetrievalQA
from langchain.llms import LlamaCpp

llm = LlamaCpp(model_path="./models/llama-3-8b.gguf", n_ctx=4096)

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=vectorstore.as_retriever(),
)

answer = qa_chain.run("What does the policy say about refunds?")

How to Set Up RAG Locally

Hardware Requirements

Step-by-Step Guide

Recommended GPUs

Troubleshooting

Related Guides

How to Set Up RAG Locally

Hardware Requirements

Step-by-Step Guide

Recommended GPUs

Troubleshooting

Related Guides