$IBM собирает набор данных, чтобы научить программное обеспечение, как создается программное обеспечение.
Этот набор, получивший название Project CodeNet, содержит, 14 миллионов примеров кода на общую сумму 500 миллионов строк на более чем 55 языках программирования, от Java, C и Go до COBOL, Pascal и FORTRAN. По правде говоря, более трех четвертей всего написано на C ++ и Python.
Этот исходный код не был взят из производства, ни в процессе развития приложений: она была собрана из записей , представленных в двух конкурсов по программированию, организованных в Японии: Айдз и AtCoder. В этих соревнованиях конкурентам предлагается написать необходимый код, чтобы превратить заданный набор входных данных в набор желаемых выходных данных.
Суть в том, что в идеале искусственный интеллект, обученный на этом наборе сможет определять хорошие программы и отклонять плохие, преобразовывать устаревшие кодовые базы на современные языки, выполнять поиск приложений и источников библиотеки для желаемых подпрограмм, или, возможно, переводить с одного языка на другой
Команда, разработавшая набор данных, разместила все собранные материалы на странице проекта на GitHub
===============
Чтож, не далек тот день, когда программисты станут не нужны