ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕਰੀਏ

ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕਰੀਏ

ਇਹ ਗਾਈਡ AI ਮਾਡਲਾਂ ਨੂੰ ਇੱਕ ਵਿਹਾਰਕ, ਦੁਹਰਾਉਣਯੋਗ ਤਰੀਕੇ ਨਾਲ ਕਿਵੇਂ ਟੈਸਟ ਕਰਨਾ ਹੈ - ਕਲਾਸਿਕ ML (ਵਰਗੀਕਰਣ/ਰਿਗਰੈਸ਼ਨ), ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ, ਅਤੇ ਆਧੁਨਿਕ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਕਵਰ ਕਰਦੀ ਹੈ, ਬਾਰੇ ਦੱਸਦੀ ਹੈ। ਚੈੱਕਲਿਸਟਾਂ, ਕੁਝ ਹਲਕੇ ਰੌਲੇ-ਰੱਪੇ, ਅਤੇ ਉਹ ਹਿੱਸੇ ਜਿਨ੍ਹਾਂ ਨੂੰ ਲੋਕ ਉਦੋਂ ਤੱਕ ਛੱਡ ਦਿੰਦੇ ਹਨ ਜਦੋਂ ਤੱਕ ਉਹ ਵਾਪਸ ਨਹੀਂ ਆਉਂਦੇ।

ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਜੋ ਲੇਖ ਪੜ੍ਹਨਾ ਪਸੰਦ ਕਰ ਸਕਦੇ ਹੋ:

🔗 ਏਆਈ ਨੈਤਿਕਤਾ ਕੀ ਹੈ?
ਜ਼ਿੰਮੇਵਾਰ AI ਡਿਜ਼ਾਈਨ, ਵਰਤੋਂ ਅਤੇ ਸ਼ਾਸਨ ਨੂੰ ਸੇਧ ਦੇਣ ਵਾਲੇ ਸਿਧਾਂਤਾਂ ਦੀ ਪੜਚੋਲ ਕਰੋ।.

🔗 ਏਆਈ ਪੱਖਪਾਤ ਕੀ ਹੈ?
ਜਾਣੋ ਕਿ ਪੱਖਪਾਤੀ ਡੇਟਾ AI ਫੈਸਲਿਆਂ ਅਤੇ ਨਤੀਜਿਆਂ ਨੂੰ ਕਿਵੇਂ ਵਿਗਾੜਦਾ ਹੈ।.

🔗 ਏਆਈ ਸਕੇਲੇਬਿਲਟੀ ਕੀ ਹੈ?
ਪ੍ਰਦਰਸ਼ਨ, ਲਾਗਤ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ਲਈ AI ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਸਕੇਲਿੰਗ ਕਰਨਾ ਸਮਝੋ।.

🔗 ਏਆਈ ਕੀ ਹੈ?
ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ, ਕਿਸਮਾਂ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਵਰਤੋਂ ਦੀ ਇੱਕ ਸਪਸ਼ਟ ਸੰਖੇਪ ਜਾਣਕਾਰੀ।.


1) "ਚੰਗੇ" ਦੀ ਬੇਢੰਗੀ ਪਰਿਭਾਸ਼ਾ ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰੋ 

ਮੈਟ੍ਰਿਕਸ ਤੋਂ ਪਹਿਲਾਂ, ਡੈਸ਼ਬੋਰਡ ਤੋਂ ਪਹਿਲਾਂ, ਕਿਸੇ ਵੀ ਬੈਂਚਮਾਰਕ ਫਲੈਕਸਿੰਗ ਤੋਂ ਪਹਿਲਾਂ - ਫੈਸਲਾ ਕਰੋ ਕਿ ਸਫਲਤਾ ਕਿਵੇਂ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ।.

ਸਪੱਸ਼ਟ ਕਰੋ:

  • ਯੂਜ਼ਰ: ਅੰਦਰੂਨੀ ਵਿਸ਼ਲੇਸ਼ਕ, ਗਾਹਕ, ਡਾਕਟਰ, ਡਰਾਈਵਰ, ਸ਼ਾਮ 4 ਵਜੇ ਇੱਕ ਥੱਕਿਆ ਹੋਇਆ ਸਹਾਇਤਾ ਏਜੰਟ...

  • ਫੈਸਲਾ: ਕਰਜ਼ਾ ਮਨਜ਼ੂਰ ਕਰੋ, ਧੋਖਾਧੜੀ ਨੂੰ ਫਲੈਗ ਕਰੋ, ਸਮੱਗਰੀ ਸੁਝਾਓ, ਨੋਟਸ ਦਾ ਸਾਰ ਦਿਓ

  • ਅਸਫਲਤਾਵਾਂ ਜੋ ਸਭ ਤੋਂ ਵੱਧ ਮਾਇਨੇ ਰੱਖਦੀਆਂ ਹਨ:

    • ਝੂਠੇ ਸਕਾਰਾਤਮਕ (ਤੰਗ ਕਰਨ ਵਾਲੇ) ਬਨਾਮ ਝੂਠੇ ਨਕਾਰਾਤਮਕ (ਖਤਰਨਾਕ)

  • ਪਾਬੰਦੀਆਂ: ਲੇਟੈਂਸੀ, ਪ੍ਰਤੀ ਬੇਨਤੀ ਲਾਗਤ, ਗੋਪਨੀਯਤਾ ਨਿਯਮ, ਵਿਆਖਿਆਯੋਗਤਾ ਲੋੜਾਂ, ਪਹੁੰਚਯੋਗਤਾ

ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜਿੱਥੇ ਟੀਮਾਂ "ਅਰਥਪੂਰਨ ਨਤੀਜੇ" ਦੀ ਬਜਾਏ "ਸੁੰਦਰ ਮੈਟ੍ਰਿਕ" ਲਈ ਅਨੁਕੂਲਤਾ ਵੱਲ ਵਧਦੀਆਂ ਹਨ। ਇਹ ਬਹੁਤ ਵਾਰ ਹੁੰਦਾ ਹੈ। ਜਿਵੇਂ... ਬਹੁਤ ਕੁਝ।.

ਇਸ ਜੋਖਮ-ਜਾਗਰੂਕ (ਅਤੇ ਵਾਈਬਸ-ਅਧਾਰਿਤ ਨਹੀਂ) ਰੱਖਣ ਦਾ ਇੱਕ ਠੋਸ ਤਰੀਕਾ ਹੈ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਜੀਵਨਚੱਕਰ ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਟੈਸਟਿੰਗ ਨੂੰ ਫਰੇਮ ਕਰਨਾ, ਜਿਵੇਂ ਕਿ NIST AI ਜੋਖਮ ਪ੍ਰਬੰਧਨ ਫਰੇਮਵਰਕ (AI RMF 1.0) [1] ਵਿੱਚ ਕਰਦਾ ਹੈ।

 

ਏਆਈ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ

2) “AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਿਵੇਂ ਕਰੀਏ” ਦਾ ਇੱਕ ਚੰਗਾ ਸੰਸਕਰਣ ਕੀ ਬਣਾਉਂਦਾ ਹੈ ✅

ਇੱਕ ਠੋਸ ਜਾਂਚ ਪਹੁੰਚ ਵਿੱਚ ਕੁਝ ਗੈਰ-ਗੱਲਬਾਤਯੋਗ ਹਨ:

  • ਪ੍ਰਤੀਨਿਧੀ ਡੇਟਾ (ਸਿਰਫ ਸਾਫ਼ ਪ੍ਰਯੋਗਸ਼ਾਲਾ ਡੇਟਾ ਹੀ ਨਹੀਂ)

  • ਸਾਫ਼ ਸਪਲਿਟਸ (ਇਸ ਬਾਰੇ ਇੱਕ ਸਕਿੰਟ ਵਿੱਚ ਹੋਰ)

  • ਬੇਸਲਾਈਨ (ਸਧਾਰਨ ਮਾਡਲ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਹਾਨੂੰ ਚਾਹੀਦਾ ਹੈ - ਨਕਲੀ ਅਨੁਮਾਨਕ ਇੱਕ ਕਾਰਨ ਕਰਕੇ ਮੌਜੂਦ ਹਨ [4])

  • ਕਈ ਮਾਪਦੰਡ (ਕਿਉਂਕਿ ਇੱਕ ਨੰਬਰ ਤੁਹਾਡੇ ਸਾਹਮਣੇ, ਨਿਮਰਤਾ ਨਾਲ, ਤੁਹਾਡੇ ਸਾਹਮਣੇ ਝੂਠ ਬੋਲਦਾ ਹੈ)

  • ਤਣਾਅ ਦੇ ਟੈਸਟ (ਕਿਨਾਰੇ ਦੇ ਮਾਮਲੇ, ਅਸਾਧਾਰਨ ਇਨਪੁਟ, ਵਿਰੋਧੀ-ਵਰਗੇ ਦ੍ਰਿਸ਼)

  • ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲੂਪਸ (ਖਾਸ ਕਰਕੇ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ)

  • ਲਾਂਚ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ (ਕਿਉਂਕਿ ਦੁਨੀਆ ਬਦਲਦੀ ਹੈ, ਪਾਈਪਲਾਈਨਾਂ ਟੁੱਟਦੀਆਂ ਹਨ, ਅਤੇ ਉਪਭੋਗਤਾ... ਰਚਨਾਤਮਕ ਹੁੰਦੇ ਹਨ [1])

ਇਸ ਤੋਂ ਇਲਾਵਾ: ਇੱਕ ਚੰਗੇ ਤਰੀਕੇ ਵਿੱਚ ਇਹ ਦਸਤਾਵੇਜ਼ੀਕਰਨ ਸ਼ਾਮਲ ਹੁੰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਕੀ ਟੈਸਟ ਕੀਤਾ, ਤੁਸੀਂ ਕੀ ਨਹੀਂ ਕੀਤਾ, ਅਤੇ ਤੁਸੀਂ ਕਿਸ ਬਾਰੇ ਘਬਰਾਉਂਦੇ ਹੋ। ਉਹ "ਮੈਂ ਕਿਸ ਬਾਰੇ ਘਬਰਾਉਂਦਾ ਹਾਂ" ਭਾਗ ਅਜੀਬ ਲੱਗਦਾ ਹੈ - ਅਤੇ ਇਹ ਉਹ ਥਾਂ ਵੀ ਹੈ ਜਿੱਥੇ ਵਿਸ਼ਵਾਸ ਇਕੱਠਾ ਹੋਣਾ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ।.

ਦੋ ਦਸਤਾਵੇਜ਼ੀ ਪੈਟਰਨ ਜੋ ਟੀਮਾਂ ਨੂੰ ਲਗਾਤਾਰ ਸਪੱਸ਼ਟ ਰਹਿਣ ਵਿੱਚ ਮਦਦ ਕਰਦੇ ਹਨ:

  • ਮਾਡਲ ਕਾਰਡ (ਮਾਡਲ ਕਿਸ ਲਈ ਹੈ, ਇਸਦਾ ਮੁਲਾਂਕਣ ਕਿਵੇਂ ਕੀਤਾ ਗਿਆ, ਇਹ ਕਿੱਥੇ ਅਸਫਲ ਹੁੰਦਾ ਹੈ) [2]

  • ਡੇਟਾਸੈਟਾਂ ਲਈ ਡੇਟਾਸ਼ੀਟਾਂ (ਡੇਟਾ ਕੀ ਹੈ, ਇਸਨੂੰ ਕਿਵੇਂ ਇਕੱਠਾ ਕੀਤਾ ਗਿਆ ਸੀ, ਇਸਨੂੰ ਕਿਸ ਲਈ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ/ਕਿਸ ਲਈ ਨਹੀਂ ਵਰਤਿਆ ਜਾਣਾ ਚਾਹੀਦਾ) [3]


3) ਔਜ਼ਾਰ ਦੀ ਅਸਲੀਅਤ: ਲੋਕ ਅਭਿਆਸ ਵਿੱਚ ਕੀ ਵਰਤਦੇ ਹਨ 🧰

ਔਜ਼ਾਰ ਵਿਕਲਪਿਕ ਹਨ। ਚੰਗੀਆਂ ਮੁਲਾਂਕਣ ਆਦਤਾਂ ਨਹੀਂ ਹਨ।.

ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਵਿਹਾਰਕ ਸੈੱਟਅੱਪ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ ਜ਼ਿਆਦਾਤਰ ਟੀਮਾਂ ਤਿੰਨ ਬਾਲਟੀਆਂ ਨਾਲ ਖਤਮ ਹੁੰਦੀਆਂ ਹਨ:

  1. ਪ੍ਰਯੋਗ ਟਰੈਕਿੰਗ (ਰਨ, ਕੌਂਫਿਗ, ਆਰਟੀਫੈਕਟ)

  2. ਮੁਲਾਂਕਣ ਹਾਰਨੈੱਸ (ਦੁਹਰਾਓਣਯੋਗ ਔਫਲਾਈਨ ਟੈਸਟ + ਰਿਗਰੈਸ਼ਨ ਸੂਟ)

  3. ਨਿਗਰਾਨੀ (ਡ੍ਰਾਈਫਟ-ਇਸ਼ ਸਿਗਨਲ, ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੌਕਸੀ, ਘਟਨਾ ਚੇਤਾਵਨੀਆਂ)

ਉਦਾਹਰਨਾਂ ਜੋ ਤੁਸੀਂ ਆਮ ਤੌਰ 'ਤੇ ਬਹੁਤ ਦੇਖੋਗੇ (ਐਂਡੋਰਸਮੈਂਟ ਨਹੀਂ, ਅਤੇ ਹਾਂ - ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ/ਕੀਮਤ ਤਬਦੀਲੀ): MLflow, ਵਜ਼ਨ ਅਤੇ ਪੱਖਪਾਤ, ਵੱਡੀਆਂ ਉਮੀਦਾਂ, ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ, Deepchecks, OpenAI Evals, TruLens, LangSmith।.

ਜੇਕਰ ਤੁਸੀਂ ਇਸ ਭਾਗ ਵਿੱਚੋਂ ਵਿਚਾਰ ਇੱਕ ਦੁਹਰਾਉਣਯੋਗ ਈਵਲ ਹਾਰਨੇਸ ਬਣਾਓ । ਤੁਸੀਂ "ਬਟਨ ਦਬਾਓ → ਤੁਲਨਾਤਮਕ ਨਤੀਜੇ ਪ੍ਰਾਪਤ ਕਰੋ" ਚਾਹੁੰਦੇ ਹੋ, ਨਾ ਕਿ "ਨੋਟਬੁੱਕ ਦੁਬਾਰਾ ਚਲਾਓ ਅਤੇ ਪ੍ਰਾਰਥਨਾ ਕਰੋ"।


4) ਸਹੀ ਟੈਸਟ ਸੈੱਟ ਬਣਾਓ (ਅਤੇ ਡਾਟਾ ਲੀਕ ਹੋਣਾ ਬੰਦ ਕਰੋ) 🚧

ਬਹੁਤ ਸਾਰੇ "ਸ਼ਾਨਦਾਰ" ਮਾਡਲ ਗਲਤੀ ਨਾਲ ਧੋਖਾ ਕਰ ਰਹੇ ਹਨ।.

ਸਟੈਂਡਰਡ ਐਮਐਲ ਲਈ

ਕੁਝ ਅਨਸੈਕਸੀ ਨਿਯਮ ਜੋ ਕਰੀਅਰ ਨੂੰ ਬਚਾਉਂਦੇ ਹਨ:

  • ਟ੍ਰੇਨ/ਪ੍ਰਮਾਣਿਕਤਾ/ਟੈਸਟ ਰੱਖੋ (ਅਤੇ ਸਪਲਿਟ ਲਾਜਿਕ ਲਿਖੋ)

  • ਸਪਲਿਟਸ ਵਿੱਚ ਡੁਪਲੀਕੇਟਸ ਨੂੰ ਰੋਕੋ (ਉਹੀ ਉਪਭੋਗਤਾ, ਉਹੀ ਦਸਤਾਵੇਜ਼, ਉਹੀ ਉਤਪਾਦ, ਲਗਭਗ-ਡੁਪਲੀਕੇਟ)

  • ਫੀਚਰ ਲੀਕੇਜ ਲਈ ਵੇਖੋ (ਭਵਿੱਖ ਦੀ ਜਾਣਕਾਰੀ "ਮੌਜੂਦਾ" ਫੀਚਰਾਂ ਵਿੱਚ ਘੁਸਪੈਠ ਕਰ ਰਹੀ ਹੈ)

  • ਬੇਸਲਾਈਨ (ਡਮੀ ਐਸਟੀਮੇਟਰ) ਦੀ ਵਰਤੋਂ ਕਰੋ ਤਾਂ ਜੋ ਤੁਸੀਂ ਬੀਟਿੰਗ ਦਾ ਜਸ਼ਨ ਨਾ ਮਨਾਓ... ਕੁਝ ਵੀ ਨਹੀਂ [4]

ਲੀਕੇਜ ਪਰਿਭਾਸ਼ਾ (ਤੁਰੰਤ ਸੰਸਕਰਣ): ਸਿਖਲਾਈ/ਈਵਲ ਵਿੱਚ ਕੋਈ ਵੀ ਚੀਜ਼ ਜੋ ਮਾਡਲ ਨੂੰ ਉਸ ਜਾਣਕਾਰੀ ਤੱਕ ਪਹੁੰਚ ਦਿੰਦੀ ਹੈ ਜੋ ਉਸ ਕੋਲ ਫੈਸਲੇ ਦੇ ਸਮੇਂ ਨਹੀਂ ਹੋਵੇਗੀ। ਇਹ ਸਪੱਸ਼ਟ ("ਭਵਿੱਖ ਦਾ ਲੇਬਲ") ਜਾਂ ਸੂਖਮ ("ਘਟਨਾ ਤੋਂ ਬਾਅਦ ਦਾ ਟਾਈਮਸਟੈਂਪ ਬਕੇਟ") ਹੋ ਸਕਦਾ ਹੈ।

ਐਲਐਲਐਮ ਅਤੇ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਲਈ

ਤੁਸੀਂ ਸਿਰਫ਼ "ਇੱਕ ਮਾਡਲ" ਨਹੀਂ, ਸਗੋਂ ਇੱਕ ਪ੍ਰੋਂਪਟ-ਐਂਡ-ਨੀਤੀ ਪ੍ਰਣਾਲੀ

  • ਸੁਨਹਿਰੀ ਸੈੱਟ ਬਣਾਓ (ਛੋਟਾ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ, ਸਥਿਰ)

  • ਹਾਲੀਆ ਅਸਲ ਨਮੂਨੇ ਸ਼ਾਮਲ ਕਰੋ (ਗੁਮਨਾਮ + ਗੋਪਨੀਯਤਾ-ਸੁਰੱਖਿਅਤ)

  • ਇੱਕ ਐਜ-ਕੇਸ ਪੈਕ : ਟਾਈਪੋਜ਼, ਸਲੈਂਗ, ਗੈਰ-ਮਿਆਰੀ ਫਾਰਮੈਟਿੰਗ, ਖਾਲੀ ਇਨਪੁਟ, ਬਹੁ-ਭਾਸ਼ਾਈ ਹੈਰਾਨੀ 🌍

ਇੱਕ ਵਿਹਾਰਕ ਚੀਜ਼ ਜੋ ਮੈਂ ਇੱਕ ਤੋਂ ਵੱਧ ਵਾਰ ਵਾਪਰਦੀ ਦੇਖੀ ਹੈ: ਇੱਕ ਟੀਮ "ਮਜ਼ਬੂਤ" ਔਫਲਾਈਨ ਸਕੋਰ ਨਾਲ ਭੇਜਦੀ ਹੈ, ਫਿਰ ਗਾਹਕ ਸਹਾਇਤਾ ਕਹਿੰਦੀ ਹੈ, "ਸ਼ਾਨਦਾਰ। ਇਹ ਭਰੋਸੇ ਨਾਲ ਇੱਕ ਵਾਕ ਨੂੰ ਗੁਆ ਰਿਹਾ ਹੈ ਜੋ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ।" ਫਿਕਸ "ਵੱਡਾ ਮਾਡਲ" ਨਹੀਂ ਸੀ। ਇਹ ਬਿਹਤਰ ਟੈਸਟ ਪ੍ਰੋਂਪਟ , ਸਪਸ਼ਟ ਰੁਬਰਿਕਸ, ਅਤੇ ਇੱਕ ਰਿਗਰੈਸ਼ਨ ਸੂਟ ਸੀ ਜਿਸਨੇ ਉਸ ਸਹੀ ਅਸਫਲਤਾ ਮੋਡ ਨੂੰ ਸਜ਼ਾ ਦਿੱਤੀ। ਸਾਦਾ। ਪ੍ਰਭਾਵਸ਼ਾਲੀ।


5) ਔਫਲਾਈਨ ਮੁਲਾਂਕਣ: ਮੈਟ੍ਰਿਕਸ ਜਿਸਦਾ ਕੁਝ ਮਤਲਬ ਹੈ 📏

ਮੈਟ੍ਰਿਕ ਠੀਕ ਹਨ। ਮੈਟ੍ਰਿਕ ਮੋਨੋਕਲਚਰ ਨਹੀਂ ਹੈ।.

ਵਰਗੀਕਰਨ (ਸਪੈਮ, ਧੋਖਾਧੜੀ, ਇਰਾਦਾ, ਟ੍ਰਾਈਏਜ)

ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਵਰਤੋਂ।.

  • ਸ਼ੁੱਧਤਾ, ਯਾਦ, F1

  • ਥ੍ਰੈਸ਼ਹੋਲਡ ਟਿਊਨਿੰਗ (ਤੁਹਾਡੀ ਡਿਫਾਲਟ ਥ੍ਰੈਸ਼ਹੋਲਡ ਤੁਹਾਡੀਆਂ ਲਾਗਤਾਂ ਲਈ ਬਹੁਤ ਘੱਟ "ਸਹੀ" ਹੁੰਦੀ ਹੈ) [4]

  • ਪ੍ਰਤੀ ਖੰਡ ਉਲਝਣ ਮੈਟ੍ਰਿਕਸ (ਖੇਤਰ, ਡਿਵਾਈਸ ਕਿਸਮ, ਉਪਭੋਗਤਾ ਸਮੂਹ)

ਰਿਗਰੈਸ਼ਨ (ਪੂਰਵ ਅਨੁਮਾਨ, ਕੀਮਤ, ਸਕੋਰਿੰਗ)

  • MAE / RMSE (ਤੁਸੀਂ ਗਲਤੀਆਂ ਨੂੰ ਕਿਵੇਂ ਸਜ਼ਾ ਦੇਣਾ ਚਾਹੁੰਦੇ ਹੋ ਇਸ ਦੇ ਆਧਾਰ 'ਤੇ ਚੁਣੋ)

  • ਕੈਲੀਬ੍ਰੇਸ਼ਨ-ਇਸ਼ ਜਾਂਚ ਕਰਦਾ ਹੈ ਜਦੋਂ ਆਉਟਪੁੱਟ ਨੂੰ "ਸਕੋਰ" ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ (ਕੀ ਸਕੋਰ ਅਸਲੀਅਤ ਨਾਲ ਮੇਲ ਖਾਂਦੇ ਹਨ?)

ਦਰਜਾਬੰਦੀ / ਸਿਫ਼ਾਰਸ਼ਕਰਤਾ ਸਿਸਟਮ

  • ਐਨਡੀਸੀਜੀ, ਐਮਏਪੀ, ਐਮਆਰਆਰ

  • ਪੁੱਛਗਿੱਛ ਕਿਸਮ ਅਨੁਸਾਰ ਟੁਕੜਾ (ਸਿਰ ਬਨਾਮ ਪੂਛ)

ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ

  • mAP, IoU

  • ਪ੍ਰਤੀ-ਕਲਾਸ ਪ੍ਰਦਰਸ਼ਨ (ਦੁਰਲੱਭ ਕਲਾਸਾਂ ਉਹ ਹੁੰਦੀਆਂ ਹਨ ਜਿੱਥੇ ਮਾਡਲ ਤੁਹਾਨੂੰ ਸ਼ਰਮਿੰਦਾ ਕਰਦੇ ਹਨ)

ਜਨਰੇਟਿਵ ਮਾਡਲ (LLMs)

ਇਹੀ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਲੋਕ... ਦਾਰਸ਼ਨਿਕ 😵💫 ਪ੍ਰਾਪਤ ਕਰਦੇ ਹਨ

ਵਿਹਾਰਕ ਵਿਕਲਪ ਜੋ ਅਸਲ ਟੀਮਾਂ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹਨ:

  • ਮਨੁੱਖੀ ਮੁਲਾਂਕਣ (ਸਭ ਤੋਂ ਵਧੀਆ ਸਿਗਨਲ, ਸਭ ਤੋਂ ਹੌਲੀ ਲੂਪ)

  • ਜੋੜੇ ਅਨੁਸਾਰ ਤਰਜੀਹ / ਜਿੱਤ-ਦਰ (ਏ ਬਨਾਮ ਬੀ, ਸੰਪੂਰਨ ਸਕੋਰਿੰਗ ਨਾਲੋਂ ਸੌਖਾ ਹੈ)

  • ਆਟੋਮੇਟਿਡ ਟੈਕਸਟ ਮੈਟ੍ਰਿਕਸ (ਕੁਝ ਕੰਮਾਂ ਲਈ ਸੌਖਾ, ਦੂਜਿਆਂ ਲਈ ਗੁੰਮਰਾਹਕੁੰਨ)

  • ਕਾਰਜ-ਅਧਾਰਤ ਜਾਂਚਾਂ: “ਕੀ ਇਸਨੇ ਸਹੀ ਖੇਤਰ ਕੱਢੇ?” “ਕੀ ਇਸਨੇ ਨੀਤੀ ਦੀ ਪਾਲਣਾ ਕੀਤੀ?” “ਕੀ ਇਸਨੇ ਲੋੜ ਪੈਣ 'ਤੇ ਸਰੋਤਾਂ ਦਾ ਹਵਾਲਾ ਦਿੱਤਾ?”

ਜੇਕਰ ਤੁਸੀਂ ਇੱਕ ਢਾਂਚਾਗਤ "ਮਲਟੀ-ਮੈਟ੍ਰਿਕ, ਕਈ-ਦ੍ਰਿਸ਼ਟੀਕੋਣ" ਸੰਦਰਭ ਬਿੰਦੂ ਚਾਹੁੰਦੇ ਹੋ, ਤਾਂ HELM ਇੱਕ ਚੰਗਾ ਐਂਕਰ ਹੈ: ਇਹ ਸਪਸ਼ਟ ਤੌਰ 'ਤੇ ਮੁਲਾਂਕਣ ਨੂੰ ਸ਼ੁੱਧਤਾ ਤੋਂ ਪਰੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ, ਮਜ਼ਬੂਤੀ, ਪੱਖਪਾਤ/ਜ਼ਹਿਰੀਲੇਪਣ, ਅਤੇ ਕੁਸ਼ਲਤਾ ਵਪਾਰ-ਆਫ [5] ਵਰਗੀਆਂ ਚੀਜ਼ਾਂ ਵਿੱਚ ਧੱਕਦਾ ਹੈ।.

ਥੋੜ੍ਹਾ ਜਿਹਾ ਵਿਛੋੜਾ: ਲਿਖਣ ਦੀ ਗੁਣਵੱਤਾ ਲਈ ਸਵੈਚਾਲਿਤ ਮੈਟ੍ਰਿਕਸ ਕਈ ਵਾਰ ਇੱਕ ਸੈਂਡਵਿਚ ਨੂੰ ਤੋਲ ਕੇ ਇਸਦਾ ਨਿਰਣਾ ਕਰਨ ਵਰਗਾ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਇਹ ਕੁਝ ਵੀ ਨਹੀਂ ਹੈ, ਪਰ... ਆਓ 🥪


6) ਮਜ਼ਬੂਤੀ ਟੈਸਟਿੰਗ: ਇਸਨੂੰ ਥੋੜ੍ਹਾ ਜਿਹਾ ਪਸੀਨਾ ਲਿਆਓ 🥵🧪

ਜੇਕਰ ਤੁਹਾਡਾ ਮਾਡਲ ਸਿਰਫ਼ ਸਾਫ਼-ਸੁਥਰੇ ਇਨਪੁਟਸ 'ਤੇ ਕੰਮ ਕਰਦਾ ਹੈ, ਤਾਂ ਇਹ ਅਸਲ ਵਿੱਚ ਇੱਕ ਕੱਚ ਦਾ ਫੁੱਲਦਾਨ ਹੈ। ਸੁੰਦਰ, ਨਾਜ਼ੁਕ, ਮਹਿੰਗਾ।.

ਟੈਸਟ:

  • ਸ਼ੋਰ: ਟਾਈਪਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ, ਗੁੰਮ ਮੁੱਲ, ਗੈਰ-ਮਿਆਰੀ ਯੂਨੀਕੋਡ, ਫਾਰਮੈਟਿੰਗ ਗਲਤੀਆਂ

  • ਵੰਡ ਤਬਦੀਲੀ: ਨਵੀਆਂ ਉਤਪਾਦ ਸ਼੍ਰੇਣੀਆਂ, ਨਵੀਂ ਭਾਸ਼ਾ, ਨਵੇਂ ਸੈਂਸਰ

  • ਅਤਿਅੰਤ ਮੁੱਲ: ਸੀਮਾ ਤੋਂ ਬਾਹਰ ਦੇ ਨੰਬਰ, ਵਿਸ਼ਾਲ ਪੇਲੋਡ, ਖਾਲੀ ਤਾਰਾਂ

  • "ਵਿਰੋਧੀ-ਭਾਵਨਾ" ਇਨਪੁਟ ਜੋ ਤੁਹਾਡੇ ਸਿਖਲਾਈ ਸੈੱਟ ਵਰਗੇ ਨਹੀਂ ਲੱਗਦੇ ਪਰ ਉਪਭੋਗਤਾਵਾਂ ਵਰਗੇ ਲੱਗਦੇ ਹਨ

LLM ਲਈ, ਸ਼ਾਮਲ ਕਰੋ:

  • ਤੁਰੰਤ ਟੀਕਾ ਲਗਾਉਣ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ (ਉਪਭੋਗਤਾ ਸਮੱਗਰੀ ਦੇ ਅੰਦਰ ਲੁਕੀਆਂ ਹਦਾਇਤਾਂ)

  • "ਪਿਛਲੀਆਂ ਹਦਾਇਤਾਂ ਨੂੰ ਅਣਡਿੱਠ ਕਰੋ" ਪੈਟਰਨਾਂ

  • ਟੂਲ-ਵਰਤੋਂ ਵਾਲੇ ਕਿਨਾਰੇ ਦੇ ਮਾਮਲੇ (ਮਾੜੇ URL, ਟਾਈਮਆਉਟ, ਅੰਸ਼ਕ ਆਉਟਪੁੱਟ)

ਮਜ਼ਬੂਤੀ ਉਨ੍ਹਾਂ ਭਰੋਸੇਯੋਗਤਾ ਦੇ ਗੁਣਾਂ ਵਿੱਚੋਂ ਇੱਕ ਹੈ ਜੋ ਘਟਨਾਵਾਂ ਹੋਣ ਤੱਕ ਅਮੂਰਤ ਜਾਪਦੀ ਹੈ। ਫਿਰ ਇਹ... ਬਹੁਤ ਹੀ ਠੋਸ [1] ਬਣ ਜਾਂਦੀ ਹੈ।.


7) ਪੱਖਪਾਤ, ਨਿਰਪੱਖਤਾ, ਅਤੇ ਇਹ ਕਿਸ ਲਈ ਕੰਮ ਕਰਦਾ ਹੈ ⚖️

ਇੱਕ ਮਾਡਲ ਸਮੁੱਚੇ ਤੌਰ 'ਤੇ "ਸਹੀ" ਹੋ ਸਕਦਾ ਹੈ ਜਦੋਂ ਕਿ ਖਾਸ ਸਮੂਹਾਂ ਲਈ ਲਗਾਤਾਰ ਮਾੜਾ ਹੁੰਦਾ ਹੈ। ਇਹ ਕੋਈ ਛੋਟਾ ਬੱਗ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਉਤਪਾਦ ਅਤੇ ਵਿਸ਼ਵਾਸ ਦੀ ਸਮੱਸਿਆ ਹੈ।.

ਵਿਹਾਰਕ ਕਦਮ:

  • ਅਰਥਪੂਰਨ ਹਿੱਸਿਆਂ ਦੁਆਰਾ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰੋ (ਕਾਨੂੰਨੀ/ਨੈਤਿਕ ਤੌਰ 'ਤੇ ਮਾਪਣ ਲਈ ਢੁਕਵਾਂ)

  • ਸਮੂਹਾਂ ਵਿੱਚ ਗਲਤੀ ਦਰਾਂ ਅਤੇ ਕੈਲੀਬ੍ਰੇਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰੋ।

  • ਪ੍ਰੌਕਸੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਜ਼ਿਪ ਕੋਡ, ਡਿਵਾਈਸ ਕਿਸਮ, ਭਾਸ਼ਾ) ਲਈ ਟੈਸਟ ਕਰੋ ਜੋ ਸੰਵੇਦਨਸ਼ੀਲ ਗੁਣਾਂ ਨੂੰ ਏਨਕੋਡ ਕਰ ਸਕਦੀਆਂ ਹਨ।

ਜੇਕਰ ਤੁਸੀਂ ਇਸਨੂੰ ਕਿਤੇ ਦਸਤਾਵੇਜ਼ੀ ਰੂਪ ਨਹੀਂ ਦੇ ਰਹੇ ਹੋ, ਤਾਂ ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ ਭਵਿੱਖ ਨੂੰ ਕਹਿ ਰਹੇ ਹੋ - ਤੁਹਾਨੂੰ ਬਿਨਾਂ ਨਕਸ਼ੇ ਦੇ ਇੱਕ ਟਰੱਸਟ ਸੰਕਟ ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ। ਮਾਡਲ ਕਾਰਡ ਇਸਨੂੰ ਰੱਖਣ ਲਈ ਇੱਕ ਠੋਸ ਜਗ੍ਹਾ ਹਨ [2], ਅਤੇ NIST ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਫਰੇਮਿੰਗ ਤੁਹਾਨੂੰ ਇੱਕ ਮਜ਼ਬੂਤ ​​ਚੈੱਕਲਿਸਟ ਦਿੰਦੀ ਹੈ ਕਿ "ਚੰਗੇ" ਵਿੱਚ ਕੀ ਸ਼ਾਮਲ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ [1]।.


8) ਸੁਰੱਖਿਆ ਅਤੇ ਸੁਰੱਖਿਆ ਜਾਂਚ (ਖਾਸ ਕਰਕੇ LLM ਲਈ) 🛡️

ਜੇਕਰ ਤੁਹਾਡਾ ਮਾਡਲ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਤਾਂ ਤੁਸੀਂ ਸ਼ੁੱਧਤਾ ਤੋਂ ਵੱਧ ਜਾਂਚ ਕਰ ਰਹੇ ਹੋ। ਤੁਸੀਂ ਵਿਵਹਾਰ ਦੀ ਜਾਂਚ ਕਰ ਰਹੇ ਹੋ।.

ਇਹਨਾਂ ਲਈ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰੋ:

  • ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਨਹੀਂ (ਨੀਤੀ ਦੀਆਂ ਉਲੰਘਣਾਵਾਂ)

  • ਗੋਪਨੀਯਤਾ ਲੀਕ ਹੋਣਾ (ਕੀ ਇਹ ਰਾਜ਼ਾਂ ਦੀ ਗੂੰਜ ਹੈ?)

  • ਉੱਚ-ਦਾਅ ਵਾਲੇ ਖੇਤਰਾਂ ਵਿੱਚ ਭਰਮ

  • ਬਹੁਤ ਜ਼ਿਆਦਾ ਇਨਕਾਰ (ਮਾਡਲ ਆਮ ਬੇਨਤੀਆਂ ਤੋਂ ਇਨਕਾਰ ਕਰਦਾ ਹੈ)

  • ਜ਼ਹਿਰੀਲੇਪਣ ਅਤੇ ਪਰੇਸ਼ਾਨੀ ਦੇ ਨਤੀਜੇ

  • ਪ੍ਰੋਂਪਟ ਇੰਜੈਕਸ਼ਨ ਦੁਆਰਾ ਡੇਟਾ ਐਕਸਫਿਲਟਰੇਸ਼ਨ ਦੀਆਂ ਕੋਸ਼ਿਸ਼ਾਂ

ਇੱਕ ਜ਼ਮੀਨੀ ਪਹੁੰਚ ਇਹ ਹੈ: ਨੀਤੀ ਨਿਯਮਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ → ਟੈਸਟ ਪ੍ਰੋਂਪਟ ਬਣਾਓ → ਮਨੁੱਖੀ + ਸਵੈਚਾਲਿਤ ਜਾਂਚਾਂ ਨਾਲ ਸਕੋਰ ਆਉਟਪੁੱਟ → ਹਰ ਵਾਰ ਜਦੋਂ ਕੁਝ ਵੀ ਬਦਲਦਾ ਹੈ ਤਾਂ ਇਸਨੂੰ ਚਲਾਓ। ਉਹ "ਹਰ ਵਾਰ" ਹਿੱਸਾ ਕਿਰਾਇਆ ਹੈ।.

ਇਹ ਜੀਵਨਚੱਕਰ ਜੋਖਮ ਮਾਨਸਿਕਤਾ ਵਿੱਚ ਚੰਗੀ ਤਰ੍ਹਾਂ ਫਿੱਟ ਬੈਠਦਾ ਹੈ: ਸ਼ਾਸਨ ਕਰੋ, ਸੰਦਰਭ ਦਾ ਨਕਸ਼ਾ ਬਣਾਓ, ਮਾਪੋ, ਪ੍ਰਬੰਧ ਕਰੋ, ਦੁਹਰਾਓ [1]।.


9) ਔਨਲਾਈਨ ਟੈਸਟਿੰਗ: ਸਟੇਜਡ ਰੋਲਆਉਟ (ਜਿੱਥੇ ਸੱਚ ਰਹਿੰਦਾ ਹੈ) 🚀

ਔਫਲਾਈਨ ਟੈਸਟ ਜ਼ਰੂਰੀ ਹਨ। ਔਨਲਾਈਨ ਐਕਸਪੋਜਰ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਅਸਲੀਅਤ ਚਿੱਕੜ ਵਾਲੇ ਜੁੱਤੇ ਪਾ ਕੇ ਦਿਖਾਈ ਦਿੰਦੀ ਹੈ।.

ਤੁਹਾਨੂੰ ਫੈਂਸੀ ਹੋਣ ਦੀ ਲੋੜ ਨਹੀਂ ਹੈ। ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਅਨੁਸ਼ਾਸਿਤ ਹੋਣ ਦੀ ਲੋੜ ਹੈ:

  • ਸ਼ੈਡੋ ਮੋਡ ਵਿੱਚ ਚਲਾਓ (ਮਾਡਲ ਚੱਲਦਾ ਹੈ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਨਹੀਂ ਕਰਦਾ)

  • ਹੌਲੀ-ਹੌਲੀ ਰੋਲਆਊਟ (ਪਹਿਲਾਂ ਘੱਟ ਟ੍ਰੈਫਿਕ, ਜੇਕਰ ਠੀਕ ਹੋਵੇ ਤਾਂ ਫੈਲਾਓ)

  • ਨਤੀਜਿਆਂ ਅਤੇ ਘਟਨਾਵਾਂ ਨੂੰ ਟਰੈਕ ਕਰੋ (ਸ਼ਿਕਾਇਤਾਂ, ਵਾਧਾ, ਨੀਤੀ ਅਸਫਲਤਾਵਾਂ)

ਭਾਵੇਂ ਤੁਸੀਂ ਤੁਰੰਤ ਲੇਬਲ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕਰ ਸਕਦੇ, ਤੁਸੀਂ ਪ੍ਰੌਕਸੀ ਸਿਗਨਲਾਂ ਅਤੇ ਕਾਰਜਸ਼ੀਲ ਸਿਹਤ (ਲੇਟੈਂਸੀ, ਅਸਫਲਤਾ ਦਰਾਂ, ਲਾਗਤ) ਦੀ ਨਿਗਰਾਨੀ ਕਰ ਸਕਦੇ ਹੋ। ਮੁੱਖ ਨੁਕਤਾ: ਤੁਸੀਂ ਆਪਣੇ ਪੂਰੇ ਉਪਭੋਗਤਾ ਅਧਾਰ [1] ਤੋਂ ਪਹਿਲਾਂ


10) ਤੈਨਾਤੀ ਤੋਂ ਬਾਅਦ ਨਿਗਰਾਨੀ: ਵਹਿਣਾ, ਸੜਨਾ, ਅਤੇ ਸ਼ਾਂਤ ਅਸਫਲਤਾ 📉👀

ਜਿਸ ਮਾਡਲ ਦੀ ਤੁਸੀਂ ਜਾਂਚ ਕੀਤੀ ਹੈ ਉਹ ਉਹ ਮਾਡਲ ਨਹੀਂ ਹੈ ਜਿਸਦੇ ਨਾਲ ਤੁਸੀਂ ਜੀਉਂਦੇ ਹੋ। ਡੇਟਾ ਬਦਲਦਾ ਹੈ। ਉਪਭੋਗਤਾ ਬਦਲਦੇ ਹਨ। ਦੁਨੀਆ ਬਦਲਦੀ ਹੈ। ਪਾਈਪਲਾਈਨ ਸਵੇਰੇ 2 ਵਜੇ ਟੁੱਟ ਜਾਂਦੀ ਹੈ। ਤੁਸੀਂ ਜਾਣਦੇ ਹੋ ਕਿ ਇਹ ਕਿਵੇਂ ਹੈ..

ਮਾਨੀਟਰ:

  • ਇਨਪੁੱਟ ਡੇਟਾ ਡ੍ਰਿਫਟ (ਸਕੀਮ ਵਿੱਚ ਬਦਲਾਅ, ਗੁੰਮ ਹੋਣਾ, ਵੰਡ ਵਿੱਚ ਬਦਲਾਅ)

  • ਆਉਟਪੁੱਟ ਡ੍ਰਿਫਟ (ਕਲਾਸ ਬੈਲੇਂਸ ਸ਼ਿਫਟ, ਸਕੋਰ ਸ਼ਿਫਟ)

  • ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰੌਕਸੀਆਂ (ਕਿਉਂਕਿ ਲੇਬਲ ਦੇਰੀ ਅਸਲ ਹਨ)

  • ਫੀਡਬੈਕ ਸਿਗਨਲ (ਥੰਬਸ ਡਾਊਨ, ਰੀ-ਐਡਿਟ, ਐਸਕੇਲੇਸ਼ਨ)

  • ਸੈਗਮੈਂਟ-ਪੱਧਰ ਦੇ ਰਿਗਰੈਸ਼ਨ (ਚੁੱਪ ਕਾਤਲ)

ਅਤੇ ਚੇਤਾਵਨੀ ਦੀਆਂ ਹੱਦਾਂ ਸੈੱਟ ਕਰੋ ਜੋ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹਿੱਲਣ ਵਾਲੀਆਂ ਨਾ ਹੋਣ। ਇੱਕ ਮਾਨੀਟਰ ਜੋ ਲਗਾਤਾਰ ਚੀਕਦਾ ਰਹਿੰਦਾ ਹੈ, ਉਸਨੂੰ ਅਣਡਿੱਠਾ ਕਰ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ - ਜਿਵੇਂ ਕਿਸੇ ਸ਼ਹਿਰ ਵਿੱਚ ਕਾਰ ਅਲਾਰਮ।.

ਜੇਕਰ ਤੁਸੀਂ ਭਰੋਸੇਯੋਗਤਾ ਦੀ ਪਰਵਾਹ ਕਰਦੇ ਹੋ ਤਾਂ ਇਹ "ਮਾਨੀਟਰ + ਸਮੇਂ ਦੇ ਨਾਲ ਸੁਧਾਰ" ਲੂਪ ਵਿਕਲਪਿਕ ਨਹੀਂ ਹੈ [1]।.


11) ਇੱਕ ਵਿਹਾਰਕ ਵਰਕਫਲੋ ਜਿਸਦੀ ਤੁਸੀਂ ਨਕਲ ਕਰ ਸਕਦੇ ਹੋ 🧩

ਇੱਥੇ ਇੱਕ ਸਧਾਰਨ ਲੂਪ ਹੈ ਜੋ ਸਕੇਲ ਕਰਦਾ ਹੈ:

  1. ਸਫਲਤਾ + ਅਸਫਲਤਾ ਮੋਡ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ (ਲਾਗਤ/ਲੇਟੈਂਸੀ/ਸੁਰੱਖਿਆ ਸਮੇਤ) [1]

  2. ਡੇਟਾਸੈੱਟ ਬਣਾਓ:

    • ਸੁਨਹਿਰੀ ਸੈੱਟ

    • ਐਜ-ਕੇਸ ਪੈਕ

    • ਹਾਲੀਆ ਅਸਲ ਨਮੂਨੇ (ਗੋਪਨੀਯਤਾ-ਸੁਰੱਖਿਅਤ)

  3. ਮੈਟ੍ਰਿਕਸ ਚੁਣੋ:

    • ਟਾਸਕ ਮੈਟ੍ਰਿਕਸ (F1, MAE, ਜਿੱਤ-ਦਰ) [4][5]

    • ਸੁਰੱਖਿਆ ਮੈਟ੍ਰਿਕਸ (ਪਾਲਿਸੀ ਪਾਸ ਦਰ) [1][5]

    • ਕਾਰਜਸ਼ੀਲ ਮਾਪਦੰਡ (ਲੇਟੈਂਸੀ, ਲਾਗਤ)

  4. ਇੱਕ ਮੁਲਾਂਕਣ ਹਾਰਨੈੱਸ ਬਣਾਓ (ਹਰੇਕ ਮਾਡਲ/ਪ੍ਰੌਮਪਟ ਤਬਦੀਲੀ 'ਤੇ ਚੱਲਦਾ ਹੈ) [4][5]

  5. ਤਣਾਅ ਟੈਸਟ + ਵਿਰੋਧੀ-ਭਾਵ ਟੈਸਟ ਸ਼ਾਮਲ ਕਰੋ [1][5]

  6. ਇੱਕ ਨਮੂਨੇ ਲਈ ਮਨੁੱਖੀ ਸਮੀਖਿਆ (ਖਾਸ ਕਰਕੇ LLM ਆਉਟਪੁੱਟ ਲਈ) [5]

  7. ਸ਼ੈਡੋ ਰਾਹੀਂ ਭੇਜੋ + ਸਟੇਜਡ ਰੋਲਆਊਟ [1]

  8. ਨਿਗਰਾਨੀ + ਸੁਚੇਤ + ਅਨੁਸ਼ਾਸਨ ਨਾਲ ਮੁੜ ਸਿਖਲਾਈ [1]

  9. ਦਸਤਾਵੇਜ਼ ਦੇ ਨਤੀਜੇ ਵਜੋਂ ਇੱਕ ਮਾਡਲ-ਕਾਰਡ ਸ਼ੈਲੀ ਦੀ ਲਿਖਤ ਹੁੰਦੀ ਹੈ [2][3]

ਸਿਖਲਾਈ ਬਹੁਤ ਹੀ ਸ਼ਾਨਦਾਰ ਹੈ। ਟੈਸਟਿੰਗ ਕਿਰਾਏ 'ਤੇ ਦੇਣ ਵਾਲੀ ਹੈ।.


12) ਸਮਾਪਤੀ ਨੋਟਸ + ਤੇਜ਼ ਸੰਖੇਪ 🧠✨

AI ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਕਰਨ ਬਾਰੇ ਕੁਝ ਗੱਲਾਂ ਯਾਦ ਹਨ :

  • ਪ੍ਰਤੀਨਿਧੀ ਟੈਸਟ ਡੇਟਾ ਦੀ ਵਰਤੋਂ ਕਰੋ ਅਤੇ ਲੀਕੇਜ ਤੋਂ ਬਚੋ [4]

  • ਅਸਲ ਨਤੀਜਿਆਂ ਨਾਲ ਜੁੜੇ ਕਈ ਮੈਟ੍ਰਿਕਸ ਚੁਣੋ

  • LLM ਲਈ, ਮਨੁੱਖੀ ਸਮੀਖਿਆ + ਜਿੱਤ-ਦਰ ਸ਼ੈਲੀ ਤੁਲਨਾਵਾਂ ' [5]

  • ਟੈਸਟ ਮਜ਼ਬੂਤੀ - ਅਸਾਧਾਰਨ ਇਨਪੁਟ ਭੇਸ ਵਿੱਚ ਆਮ ਇਨਪੁਟ ਹੁੰਦੇ ਹਨ [1]

  • ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਰੋਲ ਆਊਟ ਕਰੋ ਅਤੇ ਨਿਗਰਾਨੀ ਕਰੋ, ਕਿਉਂਕਿ ਮਾਡਲ ਡ੍ਰਿਫਟ ਹੁੰਦੇ ਹਨ ਅਤੇ ਪਾਈਪਲਾਈਨਾਂ ਟੁੱਟ ਜਾਂਦੀਆਂ ਹਨ [1]

  • ਤੁਸੀਂ ਕੀ ਕੀਤਾ ਅਤੇ ਕੀ ਨਹੀਂ ਟੈਸਟ ਕੀਤਾ, ਉਸਦਾ ਦਸਤਾਵੇਜ਼ ਬਣਾਓ (ਬੇਆਰਾਮਦਾਇਕ ਪਰ ਸ਼ਕਤੀਸ਼ਾਲੀ) [2][3]

ਟੈਸਟਿੰਗ ਸਿਰਫ਼ "ਇਹ ਸਾਬਤ ਕਰਨਾ ਨਹੀਂ ਹੈ ਕਿ ਇਹ ਕੰਮ ਕਰਦਾ ਹੈ।" ਇਹ "ਆਪਣੇ ਉਪਭੋਗਤਾਵਾਂ ਦੇ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਪਤਾ ਲਗਾਉਣਾ ਹੈ ਕਿ ਇਹ ਕਿਵੇਂ ਅਸਫਲ ਹੁੰਦਾ ਹੈ।" ਅਤੇ ਹਾਂ, ਇਹ ਘੱਟ ਸੈਕਸੀ ਹੈ - ਪਰ ਇਹ ਉਹ ਹਿੱਸਾ ਹੈ ਜੋ ਤੁਹਾਡੇ ਸਿਸਟਮ ਨੂੰ ਖੜ੍ਹਾ ਰੱਖਦਾ ਹੈ ਜਦੋਂ ਚੀਜ਼ਾਂ ਡਗਮਗਾ ਜਾਂਦੀਆਂ ਹਨ... 🧱🙂


ਹਵਾਲੇ

[1] NIST - ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਰਿਸਕ ਮੈਨੇਜਮੈਂਟ ਫਰੇਮਵਰਕ (AI RMF 1.0) (PDF)
[2] ਮਿਸ਼ੇਲ ਅਤੇ ਹੋਰ - "ਮਾਡਲ ਰਿਪੋਰਟਿੰਗ ਲਈ ਮਾਡਲ ਕਾਰਡ" (arXiv:1810.03993)
[3] ਗੇਬਰੂ ਅਤੇ ਹੋਰ - "ਡੇਟਾਸੈਟਾਂ ਲਈ ਡੇਟਾਸ਼ੀਟਾਂ" (arXiv:1803.09010)
[4] scikit-learn - "ਮਾਡਲ ਚੋਣ ਅਤੇ ਮੁਲਾਂਕਣ" ਦਸਤਾਵੇਜ਼
[5] ਲਿਆਂਗ ਅਤੇ ਹੋਰ - "ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦਾ ਸੰਪੂਰਨ ਮੁਲਾਂਕਣ" (arXiv:2211.09110)

ਅਧਿਕਾਰਤ AI ਸਹਾਇਕ ਸਟੋਰ 'ਤੇ ਨਵੀਨਤਮ AI ਲੱਭੋ

ਸਾਡੇ ਬਾਰੇ

ਬਲੌਗ ਤੇ ਵਾਪਸ ਜਾਓ