ਅਨੌਮਲੀ ਡਿਟੈਕਸ਼ਨ ਡੇਟਾ ਓਪਰੇਸ਼ਨਾਂ ਦਾ ਸ਼ਾਂਤ ਹੀਰੋ ਹੈ - ਧੂੰਏਂ ਦਾ ਅਲਾਰਮ ਜੋ ਚੀਜ਼ਾਂ ਨੂੰ ਅੱਗ ਲੱਗਣ ਤੋਂ ਪਹਿਲਾਂ ਫੁਸਫੁਸਾਉਂਦਾ ਹੈ।
ਸਾਦੇ ਸ਼ਬਦਾਂ ਵਿੱਚ: AI ਸਿੱਖਦਾ ਹੈ ਕਿ "ਆਮ-ਇਸ਼" ਕਿਹੋ ਜਿਹਾ ਦਿਖਾਈ ਦਿੰਦਾ ਹੈ, ਨਵੀਆਂ ਘਟਨਾਵਾਂ ਨੂੰ ਇੱਕ ਅਸੰਗਤ ਸਕੋਰ ਥ੍ਰੈਸ਼ਹੋਲਡ ਦੇ ਅਧਾਰ ਤੇ ਇੱਕ ਮਨੁੱਖ ਨੂੰ ਪੇਜ ਕਰਨਾ ਹੈ (ਜਾਂ ਚੀਜ਼ ਨੂੰ ਆਟੋ-ਬਲਾਕ ਕਰਨਾ ਹੈ) । ਸ਼ੈਤਾਨ ਇਸ ਵਿੱਚ ਹੈ ਕਿ ਤੁਸੀਂ "ਆਮ-ਇਸ਼" ਨੂੰ ਕਿਵੇਂ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੇ ਹੋ ਜਦੋਂ ਤੁਹਾਡਾ ਡੇਟਾ ਮੌਸਮੀ, ਗੜਬੜ ਵਾਲਾ, ਵਹਿ ਰਿਹਾ ਹੁੰਦਾ ਹੈ, ਅਤੇ ਕਦੇ-ਕਦੇ ਤੁਹਾਡੇ ਨਾਲ ਝੂਠ ਬੋਲਦਾ ਹੈ। [1]
ਇਸ ਤੋਂ ਬਾਅਦ ਤੁਸੀਂ ਜੋ ਲੇਖ ਪੜ੍ਹਨਾ ਪਸੰਦ ਕਰ ਸਕਦੇ ਹੋ:
🔗 ਏਆਈ ਸਮਾਜ ਲਈ ਨੁਕਸਾਨਦੇਹ ਕਿਉਂ ਹੋ ਸਕਦਾ ਹੈ
ਵਿਆਪਕ ਏਆਈ ਅਪਣਾਉਣ ਦੇ ਨੈਤਿਕ, ਆਰਥਿਕ ਅਤੇ ਸਮਾਜਿਕ ਜੋਖਮਾਂ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।
🔗 AI ਸਿਸਟਮ ਅਸਲ ਵਿੱਚ ਕਿੰਨਾ ਪਾਣੀ ਵਰਤਦੇ ਹਨ,
ਡੇਟਾ ਸੈਂਟਰ ਕੂਲਿੰਗ, ਸਿਖਲਾਈ ਦੀਆਂ ਮੰਗਾਂ ਅਤੇ ਵਾਤਾਵਰਣ ਦੇ ਪਾਣੀ ਦੇ ਪ੍ਰਭਾਵ ਬਾਰੇ ਦੱਸਦਾ ਹੈ।
🔗 ਇੱਕ AI ਡੇਟਾਸੈੱਟ ਕੀ ਹੈ ਅਤੇ ਇਹ ਕਿਉਂ ਮਾਇਨੇ ਰੱਖਦਾ ਹੈ
ਡੇਟਾਸੈੱਟ, ਲੇਬਲਿੰਗ, ਸਰੋਤ ਅਤੇ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਭੂਮਿਕਾ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ।
🔗 AI ਗੁੰਝਲਦਾਰ ਡੇਟਾ ਤੋਂ ਰੁਝਾਨਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਿਵੇਂ ਕਰਦਾ ਹੈ
ਇਸ ਵਿੱਚ ਪੈਟਰਨ ਪਛਾਣ, ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਮਾਡਲ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਦੀ ਭਵਿੱਖਬਾਣੀ ਵਰਤੋਂ ਸ਼ਾਮਲ ਹਨ।
"ਏਆਈ ਵਿਗਾੜਾਂ ਦਾ ਪਤਾ ਕਿਵੇਂ ਲਗਾਉਂਦਾ ਹੈ?"
ਇੱਕ ਚੰਗੇ ਜਵਾਬ ਨੂੰ ਸੂਚੀ ਐਲਗੋਰਿਦਮ ਤੋਂ ਵੱਧ ਕੰਮ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਇਸਨੂੰ ਮਕੈਨਿਕਸ ਦੀ ਵਿਆਖਿਆ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਜਦੋਂ ਤੁਸੀਂ ਉਹਨਾਂ ਨੂੰ ਅਸਲ, ਅਪੂਰਣ ਡੇਟਾ ਤੇ ਲਾਗੂ ਕਰਦੇ ਹੋ ਤਾਂ ਉਹ ਕਿਵੇਂ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ। ਸਭ ਤੋਂ ਵਧੀਆ ਵਿਆਖਿਆਵਾਂ:
-
ਮੁੱਢਲੇ ਤੱਤ ਦਿਖਾਓ: ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ , ਬੇਸਲਾਈਨ , ਸਕੋਰ , ਅਤੇ ਥ੍ਰੈਸ਼ਹੋਲਡ । [1]
-
ਵਿਪਰੀਤ ਵਿਹਾਰਕ ਪਰਿਵਾਰ: ਦੂਰੀ, ਘਣਤਾ, ਇੱਕ-ਸ਼੍ਰੇਣੀ, ਇਕੱਲਤਾ, ਸੰਭਾਵਨਾਵਾਦੀ, ਪੁਨਰ ਨਿਰਮਾਣ। [1]
-
ਸਮਾਂ-ਲੜੀ ਦੀਆਂ ਕਮੀਆਂ ਨੂੰ ਸੰਭਾਲੋ: "ਆਮ" ਦਿਨ ਦੇ ਸਮੇਂ, ਹਫ਼ਤੇ ਦੇ ਦਿਨ, ਰਿਲੀਜ਼ਾਂ ਅਤੇ ਛੁੱਟੀਆਂ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। [1]
-
ਮੁਲਾਂਕਣ ਨੂੰ ਇੱਕ ਅਸਲੀ ਰੁਕਾਵਟ ਵਾਂਗ ਸਮਝੋ: ਝੂਠੇ ਅਲਾਰਮ ਸਿਰਫ਼ ਤੰਗ ਕਰਨ ਵਾਲੇ ਨਹੀਂ ਹੁੰਦੇ - ਉਹ ਵਿਸ਼ਵਾਸ ਨੂੰ ਸਾੜਦੇ ਹਨ। [4]
-
ਵਿਆਖਿਆਯੋਗਤਾ + ਮਨੁੱਖੀ-ਇਨ-ਦ-ਲੂਪ ਸ਼ਾਮਲ ਕਰੋ, ਕਿਉਂਕਿ "ਇਹ ਅਜੀਬ ਹੈ" ਮੂਲ ਕਾਰਨ ਨਹੀਂ ਹੈ। [5]
ਕੋਰ ਮਕੈਨਿਕਸ: ਬੇਸਲਾਈਨ, ਸਕੋਰ, ਥ੍ਰੈਸ਼ਹੋਲਡ 🧠
ਜ਼ਿਆਦਾਤਰ ਅਨੌਮਲੀ ਸਿਸਟਮ - ਕਲਪਨਾਤਮਕ ਹੋਣ ਜਾਂ ਨਾ ਹੋਣ - ਤਿੰਨ ਚਲਦੇ ਹਿੱਸਿਆਂ ਵਿੱਚ ਉਬਾਲਦੇ ਹਨ:
1) ਪ੍ਰਤੀਨਿਧਤਾ (ਉਰਫ਼: ਮਾਡਲ ਕੀ ਦੇਖਦਾ ਹੈ )
ਕੱਚੇ ਸਿਗਨਲ ਬਹੁਤ ਘੱਟ ਹੀ ਕਾਫ਼ੀ ਹੁੰਦੇ ਹਨ। ਤੁਸੀਂ ਜਾਂ ਤਾਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਰੋਲਿੰਗ ਸਟੈਟਸ, ਅਨੁਪਾਤ, ਲੈਗ, ਮੌਸਮੀ ਡੈਲਟਾ) ਨੂੰ ਇੰਜੀਨੀਅਰ ਕਰਦੇ ਹੋ ਜਾਂ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ (ਏਮਬੈਡਿੰਗ, ਸਬਸਪੇਸ, ਪੁਨਰ ਨਿਰਮਾਣ) ਸਿੱਖਦੇ ਹੋ। [1]
2) ਸਕੋਰਿੰਗ (ਉਰਫ਼: ਇਹ ਕਿੰਨਾ "ਅਜੀਬ" ਹੈ?)
ਆਮ ਸਕੋਰਿੰਗ ਵਿਚਾਰਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
-
ਦੂਰੀ-ਅਧਾਰਤ : ਗੁਆਂਢੀਆਂ ਤੋਂ ਦੂਰ = ਸ਼ੱਕੀ। [1]
-
ਘਣਤਾ-ਅਧਾਰਤ : ਘੱਟ ਸਥਾਨਕ ਘਣਤਾ = ਸ਼ੱਕੀ (LOF ਪੋਸਟਰ ਚਾਈਲਡ ਹੈ)। [1]
-
ਇੱਕ-ਸ਼੍ਰੇਣੀ ਦੀਆਂ ਸੀਮਾਵਾਂ : "ਆਮ" ਸਿੱਖੋ, ਬਾਹਰ ਕੀ ਪੈਂਦਾ ਹੈ ਉਸਨੂੰ ਨਿਸ਼ਾਨਬੱਧ ਕਰੋ। [1]
-
ਸੰਭਾਵਨਾ : ਫਿੱਟ ਕੀਤੇ ਮਾਡਲ ਦੇ ਅਧੀਨ ਘੱਟ ਸੰਭਾਵਨਾ = ਸ਼ੱਕੀ। [1]
-
ਪੁਨਰ ਨਿਰਮਾਣ ਗਲਤੀ : ਜੇਕਰ ਆਮ ਤੌਰ 'ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲ ਇਸਨੂੰ ਦੁਬਾਰਾ ਨਹੀਂ ਬਣਾ ਸਕਦਾ, ਤਾਂ ਇਹ ਸ਼ਾਇਦ ਬੰਦ ਹੈ। [1]
3) ਥ੍ਰੈਸ਼ਹੋਲਡਿੰਗ (ਉਰਫ਼: ਘੰਟੀ ਕਦੋਂ ਵਜਾਉਣੀ ਹੈ)
ਥ੍ਰੈਸ਼ਹੋਲਡ ਸਥਿਰ, ਮਾਤਰਾ-ਅਧਾਰਤ, ਪ੍ਰਤੀ-ਖੰਡ, ਜਾਂ ਲਾਗਤ-ਸੰਵੇਦਨਸ਼ੀਲ ਹੋ ਸਕਦੇ ਹਨ - ਪਰ ਉਹਨਾਂ ਨੂੰ ਕੈਲੀਬਰੇਟ ਕੀਤਾ , ਨਾ ਕਿ ਵਾਈਬਸ ਦੇ ਵਿਰੁੱਧ। [4]
ਇੱਕ ਬਹੁਤ ਹੀ ਵਿਹਾਰਕ ਵੇਰਵਾ: ਸਾਇਕਿਟ-ਲਰਨ ਦੇ ਆਊਟਲੀਅਰ/ਨੌਵੇਲਟੀ ਡਿਟੈਕਟਰ ਕੱਚੇ ਸਕੋਰਾਂ ਨੂੰ ਅਤੇ ਫਿਰ ਸਕੋਰਾਂ ਨੂੰ ਇਨਲੀਅਰ/ਆਊਟਲੀਅਰ ਫੈਸਲਿਆਂ ਵਿੱਚ ਬਦਲਣ ਲਈ ਇੱਕ ਥ੍ਰੈਸ਼ਹੋਲਡ (ਅਕਸਰ ਇੱਕ ਦੂਸ਼ਣ-ਸ਼ੈਲੀ ਦੀ ਧਾਰਨਾ ਦੁਆਰਾ ਨਿਯੰਤਰਿਤ) ਲਾਗੂ ਕਰਦੇ ਹਨ। [2]
ਬਾਅਦ ਵਿੱਚ ਦਰਦ ਨੂੰ ਰੋਕਣ ਵਾਲੀਆਂ ਤੇਜ਼ ਪਰਿਭਾਸ਼ਾਵਾਂ 🧯
ਦੋ ਅੰਤਰ ਜੋ ਤੁਹਾਨੂੰ ਸੂਖਮ ਗਲਤੀਆਂ ਤੋਂ ਬਚਾਉਂਦੇ ਹਨ:
-
ਆਊਟਲੀਅਰ ਖੋਜ : ਤੁਹਾਡੇ ਸਿਖਲਾਈ ਡੇਟਾ ਵਿੱਚ ਪਹਿਲਾਂ ਹੀ ਆਊਟਲੀਅਰ ਸ਼ਾਮਲ ਹੋ ਸਕਦੇ ਹਨ; ਐਲਗੋਰਿਦਮ ਕਿਸੇ ਵੀ ਤਰ੍ਹਾਂ "ਸੰਘਣਾ ਆਮ ਖੇਤਰ" ਨੂੰ ਮਾਡਲ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ।
-
ਨਵੀਨਤਾ ਦਾ ਪਤਾ ਲਗਾਉਣਾ : ਸਿਖਲਾਈ ਡੇਟਾ ਨੂੰ ਸਾਫ਼ ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ; ਤੁਸੀਂ ਇਹ ਨਿਰਣਾ ਕਰ ਰਹੇ ਹੋ ਕਿ ਕੀ ਨਵੇਂ ਨਿਰੀਖਣ ਸਿੱਖੇ ਗਏ ਆਮ ਪੈਟਰਨ ਦੇ ਅਨੁਕੂਲ ਹਨ। [2]
ਇਸ ਤੋਂ ਇਲਾਵਾ: ਨਵੀਨਤਾ ਖੋਜ ਨੂੰ ਅਕਸਰ ਇੱਕ-ਸ਼੍ਰੇਣੀ ਵਰਗੀਕਰਣ ਦੇ - ਆਮ ਮਾਡਲਿੰਗ ਕਿਉਂਕਿ ਅਸਧਾਰਨ ਉਦਾਹਰਣਾਂ ਦੁਰਲੱਭ ਜਾਂ ਪਰਿਭਾਸ਼ਿਤ ਨਹੀਂ ਹਨ। [1]

ਬਿਨਾਂ ਨਿਗਰਾਨੀ ਵਾਲੇ ਵਰਕਹੋਰਸ ਜੋ ਤੁਸੀਂ ਅਸਲ ਵਿੱਚ ਵਰਤੋਗੇ 🧰
ਜਦੋਂ ਲੇਬਲ ਦੁਰਲੱਭ ਹੁੰਦੇ ਹਨ (ਜੋ ਕਿ ਅਸਲ ਵਿੱਚ ਹਮੇਸ਼ਾ ਹੁੰਦਾ ਹੈ), ਇਹ ਉਹ ਔਜ਼ਾਰ ਹਨ ਜੋ ਅਸਲ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਦਿਖਾਈ ਦਿੰਦੇ ਹਨ:
-
ਆਈਸੋਲੇਸ਼ਨ ਫੋਰੈਸਟ : ਬਹੁਤ ਸਾਰੇ ਸਾਰਣੀ ਮਾਮਲਿਆਂ ਵਿੱਚ ਇੱਕ ਮਜ਼ਬੂਤ ਡਿਫਾਲਟ, ਅਭਿਆਸ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ ਅਤੇ ਸਾਇਕਿਟ-ਲਰਨ ਵਿੱਚ ਲਾਗੂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। [2]
-
ਇੱਕ-ਸ਼੍ਰੇਣੀ SVM : ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੋ ਸਕਦਾ ਹੈ ਪਰ ਟਿਊਨਿੰਗ ਅਤੇ ਧਾਰਨਾਵਾਂ ਪ੍ਰਤੀ ਸੰਵੇਦਨਸ਼ੀਲ ਹੈ; ਸਾਇਕਿਟ-ਲਰਨ ਸਪੱਸ਼ਟ ਤੌਰ 'ਤੇ ਸਾਵਧਾਨ ਹਾਈਪਰਪੈਰਾਮੀਟਰ ਟਿਊਨਿੰਗ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। [2]
-
ਲੋਕਲ ਆਊਟਲੀਅਰ ਫੈਕਟਰ (LOF) : ਕਲਾਸਿਕ ਘਣਤਾ-ਅਧਾਰਿਤ ਸਕੋਰਿੰਗ; ਜਦੋਂ "ਆਮ" ਇੱਕ ਸਾਫ਼-ਸੁਥਰਾ ਬਲੌਬ ਨਹੀਂ ਹੁੰਦਾ ਤਾਂ ਵਧੀਆ। [1]
ਇੱਕ ਪ੍ਰੈਕਟੀਕਲ ਗੌਚਾ ਟੀਮਾਂ ਹਫਤਾਵਾਰੀ ਮੁੜ ਖੋਜ ਕਰਦੀਆਂ ਹਨ: LOF ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਤੁਸੀਂ ਸਿਖਲਾਈ ਸੈੱਟ 'ਤੇ ਆਊਟਲੀਅਰ ਡਿਟੈਕਸ਼ਨ ਬਨਾਮ ਨਵੇਂ ਡੇਟਾ 'ਤੇ ਨੋਵੇਲਟੀ ਡਿਟੈਕਸ਼ਨ ਕਰ ਰਹੇ ਹੋ - scikit-learn ਨੂੰ ਵੀ novelty=True ਦੀ ਤਾਂ ਜੋ ਸੁਰੱਖਿਅਤ ਢੰਗ ਨਾਲ ਅਣਦੇਖੇ ਅੰਕ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਣ। [2]
ਇੱਕ ਮਜ਼ਬੂਤ ਬੇਸਲਾਈਨ ਜੋ ਡੇਟਾ ਦੇ ਘਟੀਆ ਹੋਣ 'ਤੇ ਵੀ ਕੰਮ ਕਰਦੀ ਹੈ 🪓
ਜੇਕਰ ਤੁਸੀਂ "ਸਾਨੂੰ ਸਿਰਫ਼ ਕੁਝ ਅਜਿਹਾ ਚਾਹੀਦਾ ਹੈ ਜੋ ਸਾਨੂੰ ਗੁਮਨਾਮੀ ਵਿੱਚ ਨਾ ਪਾਵੇ" ਦੇ ਮੋਡ ਵਿੱਚ ਹੋ, ਤਾਂ ਮਜ਼ਬੂਤ ਅੰਕੜਿਆਂ ਨੂੰ ਘੱਟ ਸਮਝਿਆ ਜਾਂਦਾ ਹੈ।
ਸੋਧਿਆ ਹੋਇਆ z-ਸਕੋਰ ਮੱਧਮਾਨ ਅਤੇ MAD (ਮੱਧਮਾਨ ਸੰਪੂਰਨ ਵਿਵਹਾਰ) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ 3.5 ਤੋਂ ਉੱਪਰ ਦੇ ਸੰਪੂਰਨ ਮੁੱਲ 'ਤੇ ਇੱਕ ਆਮ ਤੌਰ 'ਤੇ ਵਰਤੇ ਜਾਣ ਵਾਲੇ "ਸੰਭਾਵੀ ਆਊਟਲੀਅਰ" ਨਿਯਮ ਨੂੰ ਨੋਟ ਕਰਦੀ ਹੈ। [3]
ਇਹ ਹਰ ਅਸੰਗਤੀ ਸਮੱਸਿਆ ਦਾ ਹੱਲ ਨਹੀਂ ਕਰੇਗਾ - ਪਰ ਇਹ ਅਕਸਰ ਬਚਾਅ ਦੀ ਇੱਕ ਮਜ਼ਬੂਤ ਪਹਿਲੀ ਕਤਾਰ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਸ਼ੋਰ-ਸ਼ਰਾਬੇ ਵਾਲੇ ਮਾਪਦੰਡਾਂ ਅਤੇ ਸ਼ੁਰੂਆਤੀ-ਪੜਾਅ ਦੀ ਨਿਗਰਾਨੀ ਲਈ। [3]
ਟਾਈਮ ਸੀਰੀਜ਼ ਹਕੀਕਤ: "ਆਮ" ਇਸ ਗੱਲ 'ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ ਕਿ ਕਦੋਂ ⏱️📈
ਸਮਾਂ ਲੜੀ ਦੀਆਂ ਵਿਗਾੜਾਂ ਗੁੰਝਲਦਾਰ ਹਨ ਕਿਉਂਕਿ ਸੰਦਰਭ ਹੀ ਸਾਰਾ ਨੁਕਤਾ ਹੈ: ਦੁਪਹਿਰ ਵੇਲੇ ਇੱਕ ਵਾਧੇ ਦੀ ਉਮੀਦ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ; ਸਵੇਰੇ 3 ਵਜੇ ਉਹੀ ਵਾਧੇ ਦਾ ਮਤਲਬ ਹੋ ਸਕਦਾ ਹੈ ਕਿ ਕੁਝ ਅੱਗ ਲੱਗ ਗਈ ਹੈ। ਇਸ ਲਈ ਬਹੁਤ ਸਾਰੇ ਵਿਹਾਰਕ ਸਿਸਟਮ ਸਮਾਂ-ਜਾਗਰੂਕ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ (ਲੈਗ, ਮੌਸਮੀ ਡੈਲਟਾ, ਰੋਲਿੰਗ ਵਿੰਡੋਜ਼) ਅਤੇ ਅਨੁਮਾਨਿਤ ਪੈਟਰਨ ਦੇ ਸਾਪੇਖਕ ਸਕੋਰ ਭਟਕਣਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਸਧਾਰਣਤਾ ਦਾ ਮਾਡਲ ਬਣਾਉਂਦੇ ਹਨ। [1]
ਜੇਕਰ ਤੁਹਾਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਨਿਯਮ ਯਾਦ ਹੈ: ਆਪਣੀ ਬੇਸਲਾਈਨ (ਘੰਟਾ/ਦਿਨ/ਖੇਤਰ/ਸੇਵਾ ਪੱਧਰ) ਨੂੰ ਵੰਡੋ। [1]
ਮੁਲਾਂਕਣ: ਦੁਰਲੱਭ-ਘਟਨਾ ਦਾ ਜਾਲ 🧪
ਅਸੰਗਤੀ ਦਾ ਪਤਾ ਲਗਾਉਣਾ ਅਕਸਰ "ਘੋੜੇ ਦੇ ਢੇਰ ਵਿੱਚ ਸੂਈ" ਹੁੰਦਾ ਹੈ, ਜੋ ਮੁਲਾਂਕਣ ਨੂੰ ਅਜੀਬ ਬਣਾਉਂਦਾ ਹੈ:
-
ਜਦੋਂ ਸਕਾਰਾਤਮਕ ਬਹੁਤ ਘੱਟ ਹੁੰਦੇ ਹਨ ਤਾਂ ROC ਕਰਵ ਧੋਖੇ ਨਾਲ ਠੀਕ ਦਿਖਾਈ ਦੇ ਸਕਦੇ ਹਨ।
-
ਅਸੰਤੁਲਿਤ ਸੈਟਿੰਗਾਂ ਲਈ ਸ਼ੁੱਧਤਾ-ਯਾਦ ਦ੍ਰਿਸ਼ ਅਕਸਰ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਭਰਪੂਰ ਹੁੰਦੇ ਹਨ ਕਿਉਂਕਿ ਉਹ ਸਕਾਰਾਤਮਕ ਸ਼੍ਰੇਣੀ 'ਤੇ ਪ੍ਰਦਰਸ਼ਨ 'ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦੇ ਹਨ। [4]
-
ਕਾਰਜਸ਼ੀਲ ਤੌਰ 'ਤੇ, ਤੁਹਾਨੂੰ ਇੱਕ ਚੇਤਾਵਨੀ ਬਜਟ ਦੀ : ਮਨੁੱਖ ਗੁੱਸੇ ਨੂੰ ਛੱਡੇ ਬਿਨਾਂ ਪ੍ਰਤੀ ਘੰਟਾ ਕਿੰਨੇ ਚੇਤਾਵਨੀਆਂ ਅਸਲ ਵਿੱਚ ਟ੍ਰਾਈਜ ਕਰ ਸਕਦਾ ਹੈ? [4]
ਰੋਲਿੰਗ ਵਿੰਡੋਜ਼ ਵਿੱਚ ਬੈਕਟੈਸਟਿੰਗ ਤੁਹਾਨੂੰ ਕਲਾਸਿਕ ਅਸਫਲਤਾ ਮੋਡ ਨੂੰ ਫੜਨ ਵਿੱਚ ਮਦਦ ਕਰਦੀ ਹੈ: "ਇਹ ਪਿਛਲੇ ਮਹੀਨੇ ਦੀ ਵੰਡ 'ਤੇ... ਸੁੰਦਰਤਾ ਨਾਲ ਕੰਮ ਕਰਦਾ ਹੈ।" [1]
ਵਿਆਖਿਆਯੋਗਤਾ ਅਤੇ ਮੂਲ ਕਾਰਨ: ਆਪਣਾ ਕੰਮ ਦਿਖਾਓ 🪄
ਬਿਨਾਂ ਕਿਸੇ ਸਪੱਸ਼ਟੀਕਰਨ ਦੇ ਚੇਤਾਵਨੀ ਦੇਣਾ ਇੱਕ ਰਹੱਸਮਈ ਪੋਸਟਕਾਰਡ ਪ੍ਰਾਪਤ ਕਰਨ ਵਾਂਗ ਹੈ। ਇਹ ਲਾਭਦਾਇਕ ਹੈ, ਪਰ ਨਿਰਾਸ਼ਾਜਨਕ ਹੈ।
ਵਿਆਖਿਆਯੋਗਤਾ ਟੂਲ ਇਹ ਦੱਸ ਕੇ ਮਦਦ ਕਰ ਸਕਦੇ ਹਨ ਕਿ ਕਿਹੜੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੇ ਇੱਕ ਅਸੰਗਤ ਸਕੋਰ ਵਿੱਚ ਸਭ ਤੋਂ ਵੱਧ ਯੋਗਦਾਨ ਪਾਇਆ, ਜਾਂ "ਇਸਨੂੰ ਆਮ ਦਿਖਣ ਲਈ ਕੀ ਬਦਲਣ ਦੀ ਲੋੜ ਹੋਵੇਗੀ?" ਸ਼ੈਲੀ ਦੀਆਂ ਵਿਆਖਿਆਵਾਂ ਦੇ ਕੇ। ਵਿਆਖਿਆਯੋਗ ਮਸ਼ੀਨ ਲਰਨਿੰਗ ਕਿਤਾਬ ਆਮ ਤਰੀਕਿਆਂ (SHAP-ਸ਼ੈਲੀ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸਮੇਤ) ਅਤੇ ਉਹਨਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ ਲਈ ਇੱਕ ਠੋਸ, ਮਹੱਤਵਪੂਰਨ ਗਾਈਡ ਹੈ। [5]
ਟੀਚਾ ਸਿਰਫ਼ ਹਿੱਸੇਦਾਰਾਂ ਨੂੰ ਦਿਲਾਸਾ ਦੇਣਾ ਨਹੀਂ ਹੈ - ਇਹ ਤੇਜ਼ ਟ੍ਰਾਈਏਜ ਅਤੇ ਘੱਟ ਦੁਹਰਾਈਆਂ ਜਾਣ ਵਾਲੀਆਂ ਘਟਨਾਵਾਂ ਹਨ।
ਤੈਨਾਤੀ, ਡ੍ਰਿਫਟ, ਅਤੇ ਫੀਡਬੈਕ ਲੂਪਸ 🚀
ਮਾਡਲ ਸਲਾਈਡਾਂ ਵਿੱਚ ਨਹੀਂ ਰਹਿੰਦੇ। ਉਹ ਪਾਈਪਲਾਈਨਾਂ ਵਿੱਚ ਰਹਿੰਦੇ ਹਨ।
ਇੱਕ ਆਮ "ਉਤਪਾਦਨ ਦੇ ਪਹਿਲੇ ਮਹੀਨੇ" ਦੀ ਕਹਾਣੀ: ਡਿਟੈਕਟਰ ਜ਼ਿਆਦਾਤਰ ਤੈਨਾਤੀਆਂ, ਬੈਚ ਜੌਬਾਂ, ਅਤੇ ਗੁੰਮ ਹੋਏ ਡੇਟਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ... ਜੋ ਕਿ ਅਜੇ ਵੀ ਉਪਯੋਗੀ ਕਿਉਂਕਿ ਇਹ ਤੁਹਾਨੂੰ "ਡੇਟਾ ਗੁਣਵੱਤਾ ਘਟਨਾਵਾਂ" ਨੂੰ "ਕਾਰੋਬਾਰੀ ਵਿਗਾੜਾਂ" ਤੋਂ ਵੱਖ ਕਰਨ ਲਈ ਮਜਬੂਰ ਕਰਦਾ ਹੈ।
ਅਭਿਆਸ ਵਿੱਚ:
-
ਡ੍ਰਿਫਟ ਦੀ ਨਿਗਰਾਨੀ ਕਰੋ ਅਤੇ ਮੁੜ ਸਿਖਲਾਈ/ਮੁੜ-ਕੈਲੀਬ੍ਰੇਟ ਕਰੋ। [1]
-
ਲੌਗ ਸਕੋਰ ਇਨਪੁਟ + ਮਾਡਲ ਵਰਜਨ ਤਾਂ ਜੋ ਤੁਸੀਂ ਦੁਬਾਰਾ ਪੈਦਾ ਕਰ ਸਕੋ ਕਿ ਕੁਝ ਪੇਜ ਕਿਉਂ ਕੀਤਾ ਗਿਆ। [5]
-
ਮਨੁੱਖੀ ਫੀਡਬੈਕ (ਲਾਭਦਾਇਕ ਬਨਾਮ ਸ਼ੋਰ ਸੰਬੰਧੀ ਅਲਰਟ) ਕੈਪਚਰ ਕਰੋ। [4]
ਸੁਰੱਖਿਆ ਕੋਣ: IDS ਅਤੇ ਵਿਵਹਾਰ ਸੰਬੰਧੀ ਵਿਸ਼ਲੇਸ਼ਣ 🛡️
ਸੁਰੱਖਿਆ ਟੀਮਾਂ ਅਕਸਰ ਨਿਯਮ-ਅਧਾਰਤ ਖੋਜ ਦੇ ਨਾਲ ਅਸੰਗਤ ਵਿਚਾਰਾਂ ਨੂੰ ਮਿਲਾਉਂਦੀਆਂ ਹਨ: "ਆਮ ਹੋਸਟ ਵਿਵਹਾਰ" ਲਈ ਬੇਸਲਾਈਨ, ਨਾਲ ਹੀ ਜਾਣੇ-ਪਛਾਣੇ ਮਾੜੇ ਪੈਟਰਨਾਂ ਲਈ ਦਸਤਖਤ ਅਤੇ ਨੀਤੀਆਂ। NIST ਦਾ SP 800-94 (ਫਾਈਨਲ) ਘੁਸਪੈਠ ਖੋਜ ਅਤੇ ਰੋਕਥਾਮ ਪ੍ਰਣਾਲੀ ਦੇ ਵਿਚਾਰਾਂ ਲਈ ਇੱਕ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਹਵਾਲਾ ਦਿੱਤਾ ਗਿਆ ਫਰੇਮਿੰਗ ਬਣਿਆ ਹੋਇਆ ਹੈ; ਇਹ ਇਹ ਵੀ ਨੋਟ ਕਰਦਾ ਹੈ ਕਿ 2012 ਦਾ ਡਰਾਫਟ "Rev. 1" ਕਦੇ ਵੀ ਅੰਤਿਮ ਨਹੀਂ ਬਣਿਆ ਅਤੇ ਬਾਅਦ ਵਿੱਚ ਇਸਨੂੰ ਸੇਵਾਮੁਕਤ ਕਰ ਦਿੱਤਾ ਗਿਆ। [3]
ਅਨੁਵਾਦ: ਜਿੱਥੇ ਇਹ ਮਦਦ ਕਰਦਾ ਹੈ ਉੱਥੇ ML ਦੀ ਵਰਤੋਂ ਕਰੋ, ਪਰ ਬੋਰਿੰਗ ਨਿਯਮਾਂ ਨੂੰ ਨਾ ਸੁੱਟੋ - ਉਹ ਬੋਰਿੰਗ ਹਨ ਕਿਉਂਕਿ ਉਹ ਕੰਮ ਕਰਦੇ ਹਨ।
ਤੁਲਨਾ ਸਾਰਣੀ: ਇੱਕ ਨਜ਼ਰ ਵਿੱਚ ਪ੍ਰਸਿੱਧ ਤਰੀਕੇ 📊
| ਔਜ਼ਾਰ / ਢੰਗ | ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ | ਇਹ ਕਿਉਂ ਕੰਮ ਕਰਦਾ ਹੈ (ਅਭਿਆਸ ਵਿੱਚ) |
|---|---|---|
| ਮਜ਼ਬੂਤ / ਸੋਧੇ ਹੋਏ z-ਸਕੋਰ | ਸਧਾਰਨ ਮੈਟ੍ਰਿਕਸ, ਤੇਜ਼ ਬੇਸਲਾਈਨ | ਜਦੋਂ ਤੁਹਾਨੂੰ "ਕਾਫ਼ੀ ਵਧੀਆ" ਅਤੇ ਘੱਟ ਝੂਠੇ ਅਲਾਰਮ ਦੀ ਲੋੜ ਹੋਵੇ ਤਾਂ ਮਜ਼ਬੂਤ ਪਹਿਲਾ ਪਾਸ। [3] |
| ਇਕੱਲਤਾ ਜੰਗਲ | ਸਾਰਣੀਬੱਧ, ਮਿਸ਼ਰਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ | ਠੋਸ ਡਿਫਾਲਟ ਲਾਗੂਕਰਨ ਅਤੇ ਅਭਿਆਸ ਵਿੱਚ ਵਿਆਪਕ ਤੌਰ 'ਤੇ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। [2] |
| ਇੱਕ-ਕਲਾਸ SVM | ਸੰਖੇਪ "ਆਮ" ਖੇਤਰ | ਸੀਮਾ-ਅਧਾਰਤ ਨਵੀਨਤਾ ਖੋਜ; ਟਿਊਨਿੰਗ ਬਹੁਤ ਮਾਇਨੇ ਰੱਖਦੀ ਹੈ। [2] |
| ਸਥਾਨਕ ਆਊਟਲੀਅਰ ਫੈਕਟਰ | ਮੈਨੀਫੋਲਡ-ਇਸ਼ ਨਾਰਮਲ | ਗੁਆਂਢੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਘਣਤਾ ਦਾ ਵਿਪਰੀਤ ਸਥਾਨਿਕ ਅਜੀਬਤਾ ਨੂੰ ਫੜਦਾ ਹੈ। [1] |
| ਪੁਨਰ ਨਿਰਮਾਣ ਗਲਤੀ (ਉਦਾਹਰਨ ਲਈ, ਆਟੋਏਨਕੋਡਰ-ਸ਼ੈਲੀ) | ਉੱਚ-ਆਯਾਮੀ ਪੈਟਰਨ | ਆਮ ਵਾਂਗ ਚੱਲੋ; ਵੱਡੀਆਂ ਪੁਨਰ ਨਿਰਮਾਣ ਗਲਤੀਆਂ ਭਟਕਣਾਂ ਨੂੰ ਦਰਸਾ ਸਕਦੀਆਂ ਹਨ। [1] |
ਚੀਟ ਕੋਡ: ਮਜ਼ਬੂਤ ਬੇਸਲਾਈਨ + ਇੱਕ ਬੋਰਿੰਗ ਅਣਸੁਣਿਆ ਢੰਗ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ, ਫਿਰ ਸਿਰਫ਼ ਉੱਥੇ ਹੀ ਜਟਿਲਤਾ ਸ਼ਾਮਲ ਕਰੋ ਜਿੱਥੇ ਇਹ ਕਿਰਾਏ ਦਾ ਭੁਗਤਾਨ ਕਰਦਾ ਹੈ।
ਇੱਕ ਛੋਟੀ ਜਿਹੀ ਪਲੇਬੁੱਕ: ਜ਼ੀਰੋ ਤੋਂ ਚੇਤਾਵਨੀਆਂ ਤੱਕ 🧭
-
"ਅਜੀਬ" ਨੂੰ ਕਾਰਜਸ਼ੀਲ ਤੌਰ 'ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਕਰੋ (ਲੇਟੈਂਸੀ, ਧੋਖਾਧੜੀ ਦਾ ਜੋਖਮ, CPU ਥ੍ਰੈਸ਼, ਵਸਤੂ ਸੂਚੀ ਦਾ ਜੋਖਮ)।
-
ਇੱਕ ਬੇਸਲਾਈਨ (ਮਜ਼ਬੂਤ ਅੰਕੜੇ ਜਾਂ ਖੰਡਿਤ ਥ੍ਰੈਸ਼ਹੋਲਡ) ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ। [3]
-
ਪਹਿਲੇ ਪਾਸ ਦੇ ਤੌਰ 'ਤੇ ਇੱਕ ਅਣ-ਨਿਗਰਾਨੀ ਮਾਡਲ ਚੁਣੋ
-
ਇੱਕ ਚੇਤਾਵਨੀ ਬਜਟ ਨਾਲ ਸੀਮਾਵਾਂ ਨਿਰਧਾਰਤ ਕਰੋ , ਅਤੇ ਜੇਕਰ ਸਕਾਰਾਤਮਕ ਬਹੁਤ ਘੱਟ ਹਨ ਤਾਂ PR-ਸ਼ੈਲੀ ਵਾਲੀ ਸੋਚ ਨਾਲ ਮੁਲਾਂਕਣ ਕਰੋ। [4]
-
ਸਪੱਸ਼ਟੀਕਰਨ + ਲੌਗਿੰਗ ਸ਼ਾਮਲ ਕਰੋ ਤਾਂ ਜੋ ਹਰ ਚੇਤਾਵਨੀ ਦੁਬਾਰਾ ਪੈਦਾ ਕੀਤੀ ਜਾ ਸਕੇ ਅਤੇ ਡੀਬੱਗ ਕੀਤੀ ਜਾ ਸਕੇ। [5]
-
ਬੈਕਟੈਸਟ, ਸ਼ਿਪ, ਸਿੱਖੋ, ਰੀਕੈਲੀਬਰੇਟ - ਡ੍ਰਿਫਟ ਆਮ ਹੈ। [1]
ਤੁਸੀਂ ਇਹ ਇੱਕ ਹਫ਼ਤੇ ਵਿੱਚ ਬਿਲਕੁਲ ਕਰ ਸਕਦੇ ਹੋ... ਇਹ ਮੰਨ ਕੇ ਕਿ ਤੁਹਾਡੇ ਟਾਈਮਸਟੈਂਪ ਡਕਟ ਟੇਪ ਅਤੇ ਉਮੀਦ ਨਾਲ ਇਕੱਠੇ ਨਹੀਂ ਹਨ। 😅
ਅੰਤਿਮ ਟਿੱਪਣੀਆਂ - ਬਹੁਤ ਲੰਮਾ, ਮੈਂ ਇਹ ਨਹੀਂ ਪੜ੍ਹਿਆ🧾
AI "ਆਮ" ਦੀ ਇੱਕ ਵਿਹਾਰਕ ਤਸਵੀਰ ਸਿੱਖ ਕੇ, ਭਟਕਣਾਂ ਨੂੰ ਸਕੋਰ ਕਰਕੇ, ਅਤੇ ਇੱਕ ਥ੍ਰੈਸ਼ਹੋਲਡ ਨੂੰ ਪਾਰ ਕਰਨ ਵਾਲੀਆਂ ਚੀਜ਼ਾਂ ਨੂੰ ਫਲੈਗ ਕਰਕੇ ਵਿਗਾੜਾਂ ਦਾ ਪਤਾ ਲਗਾਉਂਦਾ ਹੈ। ਸਭ ਤੋਂ ਵਧੀਆ ਸਿਸਟਮ ਚਮਕਦਾਰ ਹੋਣ ਨਾਲ ਨਹੀਂ, ਸਗੋਂ ਕੈਲੀਬਰੇਟ : ਖੰਡਿਤ ਬੇਸਲਾਈਨ, ਚੇਤਾਵਨੀ ਬਜਟ, ਵਿਆਖਿਆਯੋਗ ਆਉਟਪੁੱਟ, ਅਤੇ ਇੱਕ ਫੀਡਬੈਕ ਲੂਪ ਜੋ ਸ਼ੋਰ ਵਾਲੇ ਅਲਾਰਮ ਨੂੰ ਇੱਕ ਭਰੋਸੇਯੋਗ ਸਿਗਨਲ ਵਿੱਚ ਬਦਲਦਾ ਹੈ। [1]
ਹਵਾਲੇ
-
ਪਿਮੈਂਟਲ ਐਟ ਅਲ. (2014) - ਨਵੀਨਤਾ ਖੋਜ ਦੀ ਸਮੀਖਿਆ (PDF, ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ) ਹੋਰ ਪੜ੍ਹੋ
-
scikit-learn ਦਸਤਾਵੇਜ਼ੀਕਰਨ - ਨਵੀਨਤਾ ਅਤੇ ਆਊਟਲੀਅਰ ਖੋਜ ਹੋਰ ਪੜ੍ਹੋ
-
NIST/SEMATECH ਈ-ਹੈਂਡਬੁੱਕ - ਆਊਟਲੀਅਰਜ਼ ਦੀ ਪਛਾਣ ਹੋਰ ਪੜ੍ਹੋ ਅਤੇ NIST CSRC - SP 800-94 (ਫਾਈਨਲ): ਘੁਸਪੈਠ ਖੋਜ ਅਤੇ ਰੋਕਥਾਮ ਪ੍ਰਣਾਲੀਆਂ (IDPS) ਲਈ ਗਾਈਡ ਹੋਰ ਪੜ੍ਹੋ
-
ਸੈਟੋ ਅਤੇ ਰੇਹਮਸਮੀਅਰ (2015) - (PLOS ONE) 'ਤੇ ਬਾਈਨਰੀ ਕਲਾਸੀਫਾਇਰ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਸਮੇਂ ਸ਼ੁੱਧਤਾ-ਯਾਦ ਪਲਾਟ ROC ਪਲਾਟ ਨਾਲੋਂ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਭਰਪੂਰ ਹੁੰਦਾ ਹੈ ਹੋਰ ਪੜ੍ਹੋ
-
ਮੋਲਨਾਰ - ਇੰਟਰਪ੍ਰੇਟੇਬਲ ਮਸ਼ੀਨ ਲਰਨਿੰਗ (ਵੈੱਬ ਬੁੱਕ) ਹੋਰ ਪੜ੍ਹੋ