Ginawa ng IBM ang dataset ng Project CodeNet para sa AI

Yunit IBM Ang pananaliksik ng Artificial Intelligence (AI) ay nagpakita ng isang dataset ng 14 na milyong sample upang bumuo ng mga modelo ng machine learning na maaaring tumulong sa mga gawain sa programming. Isang dataset na pinangalanan Project CodeNet, kinuha ang pangalan nito mula sa ImageNet, ang sikat na imbakan ng imahe na nagbago ng pananaw sa computer at malalim na pag-aaral.

Natuklasan ng mga programmer ang mga bagong problema at nag-explore ng iba't ibang solusyon, gamit ang maraming mekanismo ng conscious at subconscious na pag-iisip. Karamihan sa mga algorithm sa pag-aaral ng machine ay nangangailangan ng mahusay na tinukoy na mga gawain at malaking halaga ng naka-annotate na data upang bumuo ng mga modelo na maaaring malutas ang parehong mga problema.

IBM Project CodeNet — Ang Project CodeNet ay isang malaking dataset ng ~ 14 milyong mga halimbawa ng code na nakakalat sa dose-dosenang mga programming language.

Napakaraming pagsisikap ang ginawa sa paglikha ng mga dataset at benchmark para sa pagbuo at pagsusuri ng mga AI-for-code system ng ekspertong komunidad. Ngunit, dahil sa pagiging malikhain at bukas na katangian ng pagbuo ng software, napakahirap lumikha ng perpektong set ng data para sa programming. Sa Project CodeNet, sinubukan ng mga mananaliksik ng IBM na lumikha ng isang multi-purpose na dataset na maaaring magamit upang sanayin ang mga modelo ng machine learning sa iba't ibang gawain. Inilalarawan ito ng mga tagalikha ng CodeNet bilang "isang napakalaking sukat, magkakaibang, at mataas na kalidad na dataset para sa pagpapabilis ng algorithmic advances sa AI para sa code."

Naglalaman ang dataset ng 14 milyong halimbawa ng 500 milyong linya ng code na nakasulat sa 55 iba't ibang programming language. Ang mga sample ng code ay nakuha mula sa halos 4000 isinumiteng gawain na nai-post sa AIZU at AtCoder online coding platform. Kasama sa mga halimbawa ng code ang parehong tama at maling sagot sa mga ibinigay na gawain.

Kawili-wili din:

Ang isa sa mga pangunahing tampok ng CodeNet ay ang dami ng mga anotasyong idinagdag sa mga halimbawa. Ang bawat isa sa mga gawain sa pag-coding na kasama sa dataset ay may paglalarawang teksto, pati na rin ang oras ng CPU at mga limitasyon ng memorya. Ang bawat pagsusumite ng code ay naglalaman ng isang dosenang piraso ng impormasyon, kabilang ang wika, petsa ng pagsusumite, laki, oras ng pagpapatupad, pagtanggap at mga uri ng error. Ang mga mananaliksik ng IBM ay nagsagawa rin ng lubos na pagsisikap upang matiyak na ang set ng data ay balanse sa iba't ibang mga parameter, kabilang ang programming language, katanggap-tanggap, at mga uri ng error.

IBM Project CodeNet

Ang CodeNet ay hindi lamang ang dataset para sa pagsasanay ng mga modelo ng machine learning sa mga gawain sa programming. Ngunit may ilang mga katangian na nagpapahiwalay dito. Ang una ay ang laki ng data set, kabilang ang bilang ng mga sample at ang pagkakaiba-iba ng mga wika. Ngunit marahil ang mas mahalaga ay ang metadata na kasama ng mga sample ng code. Ang mga rich annotation na idinagdag sa CodeNet ay ginagawa itong angkop para sa magkakaibang hanay ng mga gawain, hindi tulad ng iba pang mga coding dataset na dalubhasa sa mga partikular na gawain sa programming.

Ito ang pag-ihip ng isip.

Sa GPT-3, nagtayo ako ng isang generator ng layout kung saan mo ilalarawan ang anumang layout na gusto mo, at bumubuo ito ng JSX code para sa iyo.

ANO pic.twitter.com/w8JkrZO4lk

- Sharif Shameem (@sharifshameem) Hulyo 13, 2020

Mayroong ilang mga paraan upang gamitin ang CodeNet. Isa na rito ang pagsasalin ng wika. Dahil ang bawat coding task sa dataset ay naglalaman ng mga representasyon ng iba't ibang programming language, magagamit ito ng mga data scientist para bumuo ng mga modelo ng machine learning na nagsasalin ng code mula sa isang wika patungo sa isa pa. Maaari itong maging maginhawa para sa mga organisasyong gustong mag-port ng lumang code sa mga bagong wika at gawin itong naa-access sa mga bagong henerasyon ng mga programmer.

Basahin din:

Jereloanalyticsindiamag

Mag-sign up

2 Comments

Mga bago

Ang mga matatanda Ang pinakasikat

Naka-embed na Mga Review

Tingnan ang lahat ng komento

Victor

2 na taon na ang nakaraan

Ang mga tradisyon at pagmamana ay dapat maglaro kasama ng iba't ibang pag-iisip, kasama ang mga pinakabatang henerasyon ng mga neural algorithm at ML-paraan ng paglalagay ng mga problema, na kapwa nagpapabuti sa isa't isa

0

Sumagot

Aasd

2 na taon na ang nakaraan

Sa paglipas ng panahon, ang antas ng mga programmer ay mas bababa (kumpara sa ngayon). Iyon ay, posible na magsulat ng pahilig, baluktot na code sa "shit language". At pagkatapos ay mag-optimize ang makina, at posible na makuha ang na-optimize na code ng isang propesyonal na assembler programmer (o mas mahusay pa).

0

Sumagot

Iba pang mga artikulo

Nilikha ng IBM ang set ng data ng Project CodeNet: 14 milyong mga sample ng code ang magtuturo sa AI sa programa

Mga kamakailang komento