็†ฑ้–€ๅˆ†้กž
 ่ผ‰ๅ…ฅไธญ…
็›ฎ้Œ„

๐Ÿ  ๅœฐ็ซฏ AI ๆ–‡ไปถๅŠฉๆ‰‹้€ฒ้šŽ:RAG ๅˆ‡็‰‡็ญ–็•ฅ、Top-K ่ชฟๆ ก่ˆ‡ๅผ•็”จไพ†ๆบๆ ผๅผๆœ€ไฝณๅฏฆๅ‹™

    ๐Ÿ  ๅœฐ็ซฏ AI ๆ–‡ไปถๅŠฉๆ‰‹้€ฒ้šŽ:RAG ๅˆ‡็‰‡็ญ–็•ฅ、Top-K ่ชฟๆ ก่ˆ‡ๅผ•็”จไพ†ๆบๆ ผๅผๆœ€ไฝณๅฏฆๅ‹™

    ๅพˆๅคšไบบๅœจๆญๅปบๅœฐ็ซฏ AI(ไพ‹ๅฆ‚ Ollama + ๅ„้กžๆ–‡ไปถๅŠฉๆ‰‹)ๅพŒ,ๆ˜Žๆ˜Ž่ณ‡ๆ–™้ƒฝๆ”พ้€ฒๅŽปไบ†,ๅ›ž็ญ”ๅปๅธธๅ‡บ็พๅ…ฉ็จฎ็‹€ๆณ: ๆŠ“ไธๅˆฐ้‡้ปž ๆˆ– ๆŠ“ๅˆฐไธ็›ธๅนฒ็š„ๆฎต่ฝ,ๆœ€ๅพŒๅฐฑ่ฎŠๆˆ「็œ‹่ตทไพ†ๅพˆๅƒๆœ‰ๅ›ž็ญ”,ไฝ†ๅ…ถๅฏฆไธๅฏ้ 」。

    ้€™้€šๅธธไธๆ˜ฏๆจกๅž‹ไธๅค ๅผท,่€Œๆ˜ฏ RAG(ๆชข็ดขๅขžๅผท็”Ÿๆˆ)ๆต็จ‹่ฃกๆœ€้—œ้ต็š„ไธ‰ๅ€‹ๅœฐๆ–นๆฒ’่ชฟๅฅฝ: ๅˆ‡็‰‡(Chunking)ๆชข็ดขๅƒๆ•ธ(Top-K / ้–พๅ€ผ)、ไปฅๅŠ ๅผ•็”จไพ†ๆบ(Citations)。 ๆœฌ็ฏ‡ไปฅ「่ƒฝ็ถญ้‹、ๅฏ้ฉ—่ญ‰、ๅฏไธŠ็ทš」็š„่ง’ๅบฆ,ๆ•ด็†ไธ€ๅฅ—ไฝ ๅฏไปฅ็›ดๆŽฅๅฅ—็”จ็š„ๆœ€ไฝณๅฏฆๅ‹™。


    ๐Ÿ“Œ ็›ฎ้Œ„


    1) ๐Ÿ“Œ ็›ฎๆจ™่ˆ‡้ฉ็”จๅ ดๆ™ฏ

    • ่ฎ“ๆชข็ดขๆŠ“ๅพ—ๆบ–:ๅˆ‡็‰‡็ญ–็•ฅๆญฃ็ขบ,ๅ‘้‡็›ธไผผๅบฆๆ‰ๆœƒ「ๅฐ็„ฆ」。
    • ่ฎ“ๅ›ž่ฆ†็ฉฉไธ”ๅฏ้ฉ—่ญ‰:Top-K/้–พๅ€ผ่ชฟๅฅฝ,้›œ่จŠไธๆœƒๆŠŠ็ญ”ๆกˆๅธถๆญช。
    • ่ฎ“็ตๆžœๅฏ่ฟฝๆบฏ:ๅผ•็”จไพ†ๆบ่ฆ่ƒฝๅ›žๅˆฐ「ๅ“ชไปฝๆ–‡ไปถ、ๅ“ชๅ€‹็ซ ็ฏ€、ๅ“ชไธ€้ ๆˆ–ๅ“ชๅ€‹ๆฎต่ฝ」。
    • ้ฉๅˆ:ไผๆฅญๅ…ง้ƒจ็Ÿฅ่ญ˜ๅบซ、ๅ€‹ไบบๆŠ€่ก“็ญ†่จ˜ๅœฐ็ซฏ AI、ๆณ•ๅ‹™/้†ซ็™‚/็จฝๆ ธ็ญ‰้œ€่ฆๅฏ่ฟฝๆบฏๅ›ž็ญ”็š„ๅ ดๆ™ฏ。

    2) ๐Ÿงฉ RAG ็š„ๆ ธๅฟƒๆต็จ‹:ไฝ ๅˆฐๅบ•ๅœจๅ„ชๅŒ–ๅ“ชไธ€ๆฎต?

    ๅ…ˆๆŠŠๆต็จ‹่ฌ›ๆธ…ๆฅš,ๆ‰็Ÿฅ้“่ฆๆ”นๅ“ช่ฃก。RAG ๅฏไปฅๆ‹†ๆˆๅ››ๆฎต,ๆฏๆฎตๅ‡บๅ•้กŒ็—‡็‹€ไธไธ€ๆจฃ:

    [ๆ–‡ไปถ] → (ๆŠฝๅ–/ๆธ…ๆด—) → (ๅˆ‡็‰‡ Chunking + Metadata)
          → (Embedding ๅฏซๅ…ฅๅ‘้‡ๅบซ)
    [ๆๅ•] → (Embedding ๆŸฅ่ฉข) → (Retrieval: Top-K / Threshold / ๆŽ’ๅบ)
          → (็ต„ๅˆ Context) → (LLM ็”Ÿๆˆ + ๅผ•็”จ่ผธๅ‡บ)
    • ๆŠฝๅ–/ๆธ…ๆด—ๅ‡บๅ•้กŒ:PDF ่กจๆ ผ็ ด็ขŽ、ๆฎต่ฝ้ †ๅบไบ‚,ๅพŒ้ขๅ†ๆ€Ž้บผ่ชฟ้ƒฝๆ•‘ไธๅ›žไพ†。
    • ๅˆ‡็‰‡ๅ‡บๅ•้กŒ:ๆชข็ดขๅ‘ฝไธญ็œ‹ไผผ็›ธ้—œ,ไฝ†ๅ…งๅฎนไธๅฎŒๆ•ด,ๅฎนๆ˜“「ๆŠ“ๅˆฐๅŠๅฅ」ๆˆ–「ๆผๆމๅฎš็พฉ」。
    • Retrievalๅ‡บๅ•้กŒ:Top-K ๅคชๅคงๅกž้›œ่จŠ、ๅคชๅฐๆผ่ณ‡ๆ–™;Threshold ๅคช้ซ˜ๆ’ˆไธๅˆฐ、ๅคชไฝŽๆ’ˆ้Œฏ。
    • ๅผ•็”จๅ‡บๅ•้กŒ:็ญ”ๆกˆ็œ‹ไผผๆญฃ็ขบ,ไฝ†ๆฒ’่พฆๆณ•้ฉ—่ญ‰,ไฝฟ็”จ่€…ไฟกไปปๅบฆๆœƒไธ€่ทฏๆމ。

    3) ๐Ÿง  ๅˆ‡็‰‡็ญ–็•ฅ:็‚บไป€้บผๅฎƒๆฑบๅฎšไบ†『ๆชข็ดขๆบ–ไธๆบ–』

    ๅ‘้‡ๆชข็ดขๆŠ“็š„ๆ˜ฏ「่ชžๆ„็›ธไผผๅบฆ」,่€Œไธๆ˜ฏ「ไฝ ไปฅ็‚บ็š„้—œ้ตๅญ—」。ๅฆ‚ๆžœไธ€ๆฎตๅคช้•ท,ๅ‘้‡ๆœƒ่ฎŠๅพ—ๆจก็ณŠ;ๅฆ‚ๆžœๅคช็Ÿญ,ๅˆๆœƒๅคฑๅŽปไธŠไธ‹ๆ–‡。 ๆ‰€ไปฅๅˆ‡็‰‡็š„็›ฎๆจ™ไธๆ˜ฏ「ๅˆ‡ๅพ—ๅคš」,่€Œๆ˜ฏ่ฎ“ๆฏๅ€‹ chunk ๆˆ็‚บๅฏ็จ็ซ‹่ขซ็†่งฃ็š„ๆœ€ๅฐ็Ÿฅ่ญ˜ๅ–ฎไฝ

    ✅ ๅปบ่ญฐๅ„ชๅ…ˆๆŽก็”จ:็ตๆง‹ๅ„ชๅ…ˆๅˆ‡ๅˆ†(ๆจ™้กŒ/ๆฎต่ฝ/ๆธ…ๅ–ฎ)

    • ๅ…ˆๆŒ‰็ตๆง‹ๅˆ‡:ๆจ™้กŒ → ๅฐ็ฏ€ → ๆฎต่ฝ → ๆธ…ๅ–ฎ้ …(ๆฏ”ๅ›บๅฎšๅญ—ๆ•ธ็กฌๅˆ‡็ฉฉๅฎšๅพˆๅคš)。
    • ๅ†็”จๅคงๅฐ่ฃœ้ฝŠ:่ถ…้•ทๆฎต่ฝๆ‰็”จๅญ—ๆ•ธ/ๅญ—ๅ…ƒ่ฃœๅˆ‡。
    • Metadata ่ทŸ่‘—ๅˆ‡:็ซ ็ฏ€ๆจ™้กŒ、้ ็ขผ、ๆฎต่ฝ็ดขๅผ•、chunk_id ็›ดๆŽฅๅธถไธŠ,ๅพŒ้ขๅผ•็”จๆ‰ๅšๅพ—่ตทไพ†。

    4) ๐Ÿงช ๅˆ‡็‰‡ๅฏฆๆˆฐ้…ๆ–น:ไพๆ–‡ไปถๅž‹ๆ…‹้ธ Chunk Size

    ๆฒ’ๆœ‰ไธ€ๅ€‹ Chunk Size ๅฏไปฅ้€šๅƒ。ๆœ€ๅ‹™ๅฏฆ็š„ๅšๆณ•ๆ˜ฏ:ๅ…ˆๆŒ‰ๆ–‡ไปถๅž‹ๆ…‹ๅˆ†็พค,็ตฆ「่ตทๅง‹ๅ€ผ」,ๅ†็”จ้กŒๅบซๅŽป้ฉ—่ญ‰่ˆ‡ๅพฎ่ชฟ。

    ๆ–‡ไปถๅž‹ๆ…‹ ๅปบ่ญฐ Chunk Size(่ตทๅง‹ๅ€ผ) Overlap(่ตทๅง‹ๅ€ผ) ๅŽŸๅ› 
    ๆŠ€่ก“ๆ•™ๅญธ/ๆ“ไฝœๆ‰‹ๅ†Š(ๆฎต่ฝๆธ…ๆฅš) 600 ~ 900 80 ~ 160 ้œ€่ฆไฟ็•™「ๆญฅ้ฉŸๅ‰ๅพŒ」่ˆ‡ๆณจๆ„ไบ‹้ …
    ่ฆๆ ผๆ›ธ/ๅ่ฉžๅฎš็พฉๅฏ†้›† 400 ~ 700 120 ~ 200 ๅฎš็พฉ + ๆขไปถๅธธ้ปๅœจไธ€่ตท,Overlap ่ฆๆ›ดไฟๅฎˆ
    FAQ/็Ÿญๆฎต่ฝๅ•็ญ” 250 ~ 450 40 ~ 80 ไธ€ๅ•ไธ€็ญ”ๆœฌ่บซๅฐฑ็Ÿญ,ๅˆ‡ๅคชๅคงๅ่€Œๆทท้›œ
    ็จ‹ๅผ็ขผ/่จญๅฎšๆช” 200 ~ 400(ไปฅ่กŒ็‚บๅ–ฎไฝๆ›ดไฝณ) 20 ~ 60 ไปฅๅ‡ฝๅผ/ๅ€ๅกŠๅˆ‡ๆฏ”ๅญ—ๆ•ธๅˆ‡ๅฏ้ 
    PDF ่กจๆ ผ็‚บไธป ๅ…ˆ่ฝ‰ Markdown/็ตๆง‹ๅŒ–ๅพŒๅ†ๅˆ‡ ่ฆ–ๆฌ„ไฝ่€Œๅฎš ๆŠฝๅ–่‹ฅ็ ด็ขŽ,ๅˆ‡็‰‡ๅ†ๅฎŒ็พŽไนŸๆ•‘ไธๅ›žไพ†

    ๅฆ‚ๆžœไฝ ๅชๆƒณ่ฆไธ€ๅ€‹「ๅ…ˆ่ƒฝ็”จ」็š„่ตทๆ‰‹ๅผ:Chunk Size 700、Overlap 140,ๅ†็”จ Top-K/Threshold ๅšๅพฎ่ชฟ,้€šๅธธ่ƒฝๅ…ˆๆŠŠ「่ƒก่ชชๅ…ซ้“」ๅฃ“ไธ‹ไพ†。


    5) ๐Ÿ›  Overlap ๆ€Ž้บผ่จญๆ‰ไธๆœƒๆ–ทไธŠไธ‹ๆ–‡?

    Overlap ็š„็›ฎ็š„ไธๆ˜ฏ็Œๆฐด,่€Œๆ˜ฏ้ฟๅ…「ๅฎš็พฉๅ‰›ๅฅฝๅœจไธŠไธ€ๆฎต、่งฃ้‡‹ๅ‰›ๅฅฝๅœจไธ‹ไธ€ๆฎต」ๆ™‚,ๆชข็ดขๅชๆ‹ฟๅˆฐๅŠๅฅ—่ณ‡่จŠ。 ๆœ€ๅธธ่ฆ‹็š„ๅปบ่ญฐๆ˜ฏ Overlap = Chunk Size ็š„ 10%~20%,ไฝ†ไฝ ๅฏไปฅ็”จไธ€ๅ€‹ๆ›ด็›ด่ฆบ็š„ๅˆคๆ–ท:

    • ๅฆ‚ๆžœไฝ ็š„ chunk ๅธธๅซ「่ก“่ชž + ๅฎš็พฉ + ๆขไปถ」:Overlap ๅๅคง(15%~25%)。
    • ๅฆ‚ๆžœไฝ ็š„ chunk ๅคš็‚บ「็Ÿญๅ•็ญ”/ๅฐๆฎต่ฝ」:Overlap ๅๅฐ(5%~15%)。
    CHUNK_SIZE = 700
    CHUNK_OVERLAP = 140   # ็ด„ 20%

    6) ๐Ÿ” Top-K ่ˆ‡ Similarity Threshold ็š„่ชฟๆ กๆ–นๆณ•

    ้€™ๅ…ฉๅ€‹ๅƒๆ•ธๆฑบๅฎš「ๆจกๅž‹ๆœƒ็œ‹ๅˆฐๅ“ชไบ›่ณ‡ๆ–™」。็ญ–็•ฅๆ˜ฏ:ๅ…ˆๆŠŠๅˆ‡็‰‡ๅ›บๅฎš,ๅ†็”จไธ€็ต„ๅ›บๅฎš้กŒๅบซๅš A/B ๆธฌ่ฉฆ。

    6.1 Top-K(ๆ’ˆๅ›žไพ†ๅนพๆฎต)

    • K=3~5:ไธ€่ˆฌๅ•็ญ”ๆœ€ๅธธ็”จ,้›œ่จŠๅฐ‘,็ต่ซ–ๆ›ด่š็„ฆ。
    • K=6~10:ๆ•ด็†/ๆฏ”่ผƒ/ๅฝ™ๆ•ดๅž‹ๅ•้กŒ,่ƒŒๆ™ฏๆ›ดๅฎŒๆ•ด,ไฝ†ๆ›ดๅฎนๆ˜“ๅกžๅ…ฅไธ็›ธๅนฒๆฎต่ฝ。

    6.2 Similarity Threshold(็›ธไผผๅบฆ้–พๅ€ผ)

    ็”จไพ†ๆŠŠ「็œ‹ไผผ็›ธ้—œไฝ†ๅ…ถๅฏฆๆ˜ฏ้›œ่จŠ」ๆ“‹ๆމ。ๅธธ่ฆ‹่ตทๆ‰‹ๅผ:

    • ๅ…ˆๅพž 0.70 ้–‹ๅง‹
    • ๆ’ˆไธๅˆฐ่ณ‡ๆ–™ๅฐฑ้™ๅˆฐ 0.65
    • ้›œ่จŠๅคชๅคšๅฐฑๅ‡ๅˆฐ 0.75

    6.3 ๅปบ่ญฐ็š„่ชฟๆ ก้ †ๅบ(ๆœ€็œๆ™‚้–“)

    • ๅ…ˆ่ชฟ Top-K:3 → 5 → 8(็œ‹ๆผๆŠ“ vs ้›œ่จŠ)
    • ๅ†่ชฟ Threshold:0.75 → 0.70 → 0.65(็œ‹ๆ’ˆไธๅˆฐ vs ไบ‚ๆŠ“)
    ๅ‹™ๅฏฆๆ้†’: ไธ่ฆ็”จ「ๅ–ฎไธ€ๅ•้กŒ」ๅˆคๆ–ทๆ•ˆๆžœ。ๆบ–ๅ‚™ 10~30 ้กŒๅ›บๅฎš้กŒๅบซ,ๆ‰็œ‹ๅพ—ๅ‡บ็ฉฉๅฎšๆ€ง。

    7) ๐Ÿงพ Context Window ้ ็ฎ—:ๅˆฅ่ฎ“้›œ่จŠๅกž็ˆ†ๆจกๅž‹

    ๅพˆๅคšไบบ Top-K ้–‹ๅพˆๅคง,็ตๆžœไธๆ˜ฏๆ›ดๆบ–,่€Œๆ˜ฏๆ›ดไบ‚。ๅŽŸๅ› ๅพˆ็ฐกๅ–ฎ:Context Window ๆœ‰ไธŠ้™,ไฝ ๅกž้€ฒๅŽป็š„ๆฏไธ€ๆฎต้ƒฝๅœจ่ทŸๆญฃ็ขบ่ณ‡่จŠๆถไฝ็ฝฎ。

    7.1 ไธ€ๅ€‹ๅฅฝ็”จ็š„้ ็ฎ—ๅˆ†้…

    • 20%:็ณป็ตฑๆŒ‡ไปค/ๅ›ž็ญ”ๆ ผๅผ/ๅผ•็”จ่ฆๅ‰‡(ไธๅฏ็œ)
    • 70%:ๆชข็ดขๅ›žไพ†็š„ chunks(ไธป่œ)
    • 10%:ไฝฟ็”จ่€…ๅ•้กŒ、้กๅค–้™ๅˆถๆขไปถ

    7.2 ๅฏฆๅ‹™ๆŠ€ๅทง:ๅ…ˆ「ๆŽ’ๅบ」ๅ†「ๆˆชๆ–ท」

    • ๅ…ˆไพ็›ธไผผๅบฆๆŽ’ๅบ(ๆˆ–ๅŠ ไธŠ rerank)
    • ๅ†ไพ token ้ ็ฎ—้€ๆฎตๅŠ ๅ…ฅ,่ถ…้Žๅฐฑๅœๆญข
    • ๅฟ…่ฆๆ™‚ๆŠŠ「็ฌฌไบŒๆขฏ้šŠ」่ณ‡ๆ–™ๆ”พๅˆฐไธ‹ไธ€่ผช(ๅคš่ผชๆชข็ดข)

    8) ๐Ÿ“„ ๅผ•็”จไพ†ๆบ(Citations):ๅฏ่ฟฝๆบฏไธๆ˜ฏๅŠ ๅ€‹่จป่…ณ่€Œๅทฒ

    「ๅผ•็”จ」็œŸๆญฃ็š„ๅƒนๅ€ผๆ˜ฏ:่ฎ“ไฝฟ็”จ่€…่ƒฝๅ›ž้ ญๆ ธๅฐ,ไธฆ่ฎ“ไฝ ่‡ชๅทฑ่ƒฝๆŽ’้Œฏ。่ฆๅšๅˆฐ้€™ไปถไบ‹,metadata ้œ€่ฆ่ฆๆ ผๅŒ–。

    8.1 ๅปบ่ญฐ็š„ metadata(่‡ณๅฐ‘่ฆๆœ‰)

    • doc_id:ๆ–‡ไปถๅ”ฏไธ€ ID(ไธ่ฆๅช้ ๆช”ๅ)
    • file_name:ๆช”ๅๆˆ–้กฏ็คบๅ
    • section_title:็ซ ็ฏ€ๆจ™้กŒ(้žๅธธ้—œ้ต)
    • page_number:PDF ๅฏ็”จ(ๆฒ’ๆœ‰ๅฐฑ็”จๆฎต่ฝ็ดขๅผ•)
    • chunk_id:ๅˆ‡็‰‡ๅพŒ็š„ๅ”ฏไธ€ ID(ไพ‹:doc_id + ๅบ่™Ÿ)
    • offset:ๅญ—ๅ…ƒๅ็งปๆˆ–ๆฎต่ฝ็ดขๅผ•(ๆ–นไพฟ็ฒพๆบ–ๅฎšไฝ)
    • source_url:ๅฏ้ปž้–‹็š„ไพ†ๆบ(ๅ…ง็ถฒไนŸ่กŒ)

    8.2 ๆŽจ่–ฆ็š„ๆ็คบ่ฉžๆจกๆฟ(ๅฏ็›ดๆŽฅๅฅ—็”จ)

    ไฝ ๆ˜ฏๅšด่ฌน็š„ๆŠ€่ก“ๆ–‡ไปถๅŠฉๆ‰‹,ๅช่ƒฝไพๆ“š【ๅƒ่€ƒ่ณ‡ๆ–™】ๅ›ž็ญ”。
    ่‹ฅ【ๅƒ่€ƒ่ณ‡ๆ–™】ๆœชๅŒ…ๅซ็ญ”ๆกˆ,่ซ‹ๅ›ž่ฆ†「่ณ‡ๆ–™ไธ่ถณ」,ไธฆๅˆ—ๅ‡บ้œ€่ฆ่ฃœๅ……็š„่ณ‡ๆ–™ๆˆ–ๆ–‡ไปถ。
    
    ่ผธๅ‡บๆ ผๅผ(ๅฟ…้ ˆ้ตๅฎˆ):
    1) ็ต่ซ–(ๆขๅˆ—)
    2) ไพๆ“š(ๆฏ้ปžๅพŒ้ข้™„ [ไพ†ๆบ])
    3) ่‹ฅๆœ‰ๆ“ไฝœ:ๆญฅ้ฉŸ(ๅฟ…่ฆๆ™‚้™„ [ไพ†ๆบ])
    4) ๅผ•็”จๆธ…ๅ–ฎ(ๅˆ—ๅ‡บๆฏๅ€‹ [ไพ†ๆบ] ็š„ๆ–‡ไปถ/็ซ ็ฏ€/้ ็ขผ/ID)
    
    【ๅ•้กŒ】
    {question}
    
    【ๅƒ่€ƒ่ณ‡ๆ–™】
    [ไพ†ๆบ1] ๆ–‡ไปถ:{file_name}|็ซ ็ฏ€:{section_title}|้ ็ขผ:{page_number}|ID:{chunk_id}
    ๅ…งๅฎน:{chunk_text}
    
    [ไพ†ๆบ2] ...

    8.3 ๅผ•็”จ่ผธๅ‡บๆ ผๅผ(่ฎ€่€…ๆœ€ๅฅฝๆ ธๅฐ)

    • ๅฅๅฐพๅผ•็”จ:...(ๅƒ่€ƒ:[ไพ†ๆบ1][ไพ†ๆบ3])
    • ๆฎตๅฐพๅผ•็”จ:ๆฎต่ฝๆœ€ๅพŒ็ตฑไธ€ๅˆ—:ๅผ•็”จ:[ไพ†ๆบ2][ไพ†ๆบ4]
    ๅฏ็ถญ้‹ๅปบ่ญฐ: ๅช่ฆไฝ ๅšไบ†ๅผ•็”จ,ๅพŒ้ขๆŽ’้Œฏๆœƒ่ผ•้ฌ†ๅพˆๅคš:ๆ˜ฏๆŠฝๅ–้Œฏ、ๅˆ‡็‰‡้Œฏ、้‚„ๆ˜ฏ Top-K/Threshold ๆ‹‰ๆญช,ไธ€็œผๅฐฑ่ƒฝๅฎšไฝ。

    9) ⚠️ ๅœฐ็ซฏ RAG ๅธธ่ฆ‹ๅ‘่ˆ‡ๅฐ็ญ–

    9.1 PDF ่กจๆ ผๆŠฝไธไนพๆทจ,็ญ”ๆกˆๆฐธ้ ๆ€ชๆ€ช็š„

    ่กจๆ ผ่ขซๆ‹†ๆˆ็ขŽ็‰‡ๆ–‡ๅญ—ๆ™‚,ๅ‘้‡ๆชข็ดขๅฎนๆ˜“ๆŠ“ๅˆฐ「ๅŠๅˆ—่ณ‡ๆ–™」。
    ๅฐ็ญ–: ๅ…ˆๆŠŠ่กจๆ ผ่ฝ‰ๆˆ Markdown(ไฟ็•™ๆฌ„ไฝๅ/ๅ–ฎไฝ),ๆˆ–่ฝ‰ๆˆ็ตๆง‹ๅŒ– JSON,ๅ†้€ฒ่กŒๅˆ‡็‰‡่ˆ‡ๅฏซๅ…ฅ。

    9.2 ไฝ ไปฅ็‚บๆ˜ฏ Top-K ๅ•้กŒ,ๅ…ถๅฏฆๆ˜ฏ「ๅˆ‡็‰‡ๅคช็ฒ—」

    ็•ถ chunk ๅคช้•ท,ๆชข็ดขๅ‘ฝไธญๆœƒ่ฎŠๅพ—「็œ‹่ตทไพ†็›ธ้—œไฝ†ๆŠ“ไธๅˆฐ็ญ”ๆกˆ」。
    ๅฐ็ญ–: ๅ…ˆๆŠŠ chunk size ้™ไธ€็ดš(ไพ‹ๅฆ‚ 900 → 700 → 500),ๅ†้‡ๆ–ฐๅปบ็ดขๅผ•。

    9.3 ๅ‘้‡ๅบซ่ฎŠๅคงๅพŒ่ฎŠๆ…ข

    chunks ๅˆฐๅ่ฌ็ดšไปฅไธŠ,ๅปถ้ฒ้€šๅธธๆœƒ้–‹ๅง‹้ฃ„。
    ๅฐ็ญ–: ๅš่ณ‡ๆ–™ๅˆ†ๅฑค(hot/warm)、ๅš namespace/collection ๅˆ†ๅ‰ฒ、ๆˆ–่€ƒๆ…ฎๆ›ด้ฉๅˆ็š„ๅ‘้‡ๅบซ่ˆ‡็ดขๅผ•็ญ–็•ฅ。

    9.4 Embedding ไธไธ€่‡ด(ๆœ€ๅฎนๆ˜“ๅฟฝ็•ฅ)

    ๅฏซๅ…ฅ็”จ A ๆจกๅž‹、ๆŸฅ่ฉข็”จ B ๆจกๅž‹,ๅฐฑ็ฎ—ๆ˜ฏๅŒๅฎถๆ—ไนŸๅฏ่ƒฝ่ฎ“็›ธไผผๅบฆๅคฑ็œŸ。
    ๅฐ็ญ–: ๅฏซๅ…ฅ่ˆ‡ๆŸฅ่ฉขๅผทๅˆถๅŒไธ€ๅฅ— embedding,ไธฆๆŠŠ็‰ˆๆœฌๅฏซๅ…ฅ metadata。


    10) ✅ ไธŠ็ทšๅ‰็š„ RAG ๅ„ชๅŒ–ๆชขๆŸฅๆธ…ๅ–ฎ

    • [ ] ๆŠฝๅ–ๅพŒ็š„ๆ–‡ๅญ—้ †ๅบๆญฃ็ขบ(PDF ไธไบ‚่ทณๆฎต、ไธ็ ด็ขŽ)
    • [ ] ๅˆ‡็‰‡ๆŽก「็ตๆง‹ๅ„ชๅ…ˆ」:ๆจ™้กŒ/ๆฎต่ฝ/ๆธ…ๅ–ฎๅ„ชๅ…ˆๅˆ‡ๅˆ†
    • [ ] Overlap ไป‹ๆ–ผ Chunk Size ็š„ 10%~20%,ไธ”ๅทฒ็”จ้กŒๅบซ้ฉ—่ญ‰
    • [ ] Top-K ่ˆ‡ Threshold ไพๅ›บๅฎš้กŒๅบซๅš้Ž A/B ่ชฟๆ ก
    • [ ] Context ้ ็ฎ—ๆŽง็ฎก:ๆŽ’ๅบๅพŒๅ†ๅกžๅ…ฅ,้ฟๅ…้›œ่จŠๅกž็ˆ†
    • [ ] ๆฏๅ€‹ chunk ๆœ‰ๅฎŒๆ•ด metadata(็ซ ็ฏ€/้ ็ขผ/chunk_id/ไพ†ๆบ)
    • [ ] ๅ›ž่ฆ†ๅผทๅˆถๅผ•็”จ;ๆ’ˆไธๅˆฐๅฐฑ่ผธๅ‡บ「่ณ‡ๆ–™ไธ่ถณ」
    ๐Ÿ’ฌ ไบคๆต็ถ“้ฉ—

    ไฝ ็พๅœจ็š„ RAG ไธป่ฆๅกๅœจๅ“ชไธ€ๆฎต?ๆ˜ฏๆŠฝๅ–(PDF/่กจๆ ผ)、ๅˆ‡็‰‡(Chunk Size/Overlap)、้‚„ๆ˜ฏๆชข็ดข(Top-K/Threshold)?
    ไนŸๆญก่ฟŽๅˆ†ไบซไฝ ็š„ๅƒๆ•ธ(Chunk Size / Overlap / Top-K / Threshold)่ˆ‡ไธ€ๅ…ฉๅ€‹「ๆœ€ๅธธๅ•็š„ๅ•้กŒ」,ๅพˆๅฎนๆ˜“ๅฐฑ่ƒฝๆ”ถๆ–‚ๅˆฐๆ›ด็ฉฉ็š„่ชฟๆ กๆ–นๅ‘。


    FAQ

    Q1:Overlap ่จญ่ถŠๅคง่ถŠๅฎ‰ๅ…จๅ—Ž?

    ไธไธ€ๅฎš。Overlap ๆœƒๅขžๅŠ ็ดขๅผ•้‡่ˆ‡็›ธไผผๆฎต่ฝ้‡่ค‡ๅ‘ฝไธญ,ๅคชๅคงๆœƒ่ฎ“ Top-K ๆ›ดๅฎนๆ˜“ๆ’ˆๅˆฐ「ๅŒไธ€ๆฎต็š„ไธๅŒ็‰ˆๆœฌ」,ๅ่€Œๆตช่ฒป Context ้ ็ฎ—。 ไธ€่ˆฌๅพž 10%~20% ่ตท่ทณ,ๅ†็”จ้กŒๅบซ้ฉ—่ญ‰ๆœ€็ฉฉ。

    Q2:ๆˆ‘ๆƒณ่ฆ็ญ”ๆกˆๆ›ด『ไฟๅฎˆ』,ๅฏงๅฏๅ›ž็ญ”ไธ็Ÿฅ้“

    ๆŠŠ Threshold ๆ‹‰้ซ˜(ไพ‹ๅฆ‚ 0.75),Top-K ้™ไฝŽ(ไพ‹ๅฆ‚ 3~4),ไธฆๅœจๆ็คบ่ฉž่ฆๆฑ‚「่ณ‡ๆ–™ไธ่ถณๅฐฑ็›ดๆŽฅ่ชชไธ่ถณ」。 ๅŒๆ™‚ๅผทๅˆถๅผ•็”จไพ†ๆบ,้€™ๆœƒๅคงๅน…ๅฃ“ไฝŽๅนป่ฆบๆฉŸ็އ。

    Q3:ๆˆ‘ๆƒณ่ฆ็ญ”ๆกˆๆ›ด『ๅฎŒๆ•ด』,ๅฏไปฅๅšๅฝ™ๆ•ด่ˆ‡ๆฏ”่ผƒ

    ๆŠŠ Top-K ๆ‹‰ๅˆฐ 6~10,ๆญ้… Context ้ ็ฎ—ๆŽง็ฎก(ๆŽ’ๅบๅพŒ้€ๆฎตๅŠ ๅ…ฅ),ๅฟ…่ฆๆ™‚ๆŽก「ๅ…ฉ้šŽๆฎตๆชข็ดข」:ๅ…ˆๆชข็ดขๅพŒๆ‘˜่ฆ,ๅ†ไพๆ‘˜่ฆๅš็ฌฌไบŒ่ผช็ฒพๆบ–ๆชข็ดข。


    ๐Ÿ”— ๅˆ†ไบซ้€™็ฏ‡ LINE Facebook X

    ๆฒ’ๆœ‰็•™่จ€:

    ๅผต่ฒผ็•™่จ€

    ๅญ—็ดš