1: 2019/01/12(土) 18:37:50.17 _USER
「Python」と「R」はデータサイエンティスト職の求人で最も多く要求されるスキルに数えられている。ところが、こうしたプロフェッショナルの仕事で最も頻繁に使用されているプログラミング言語について調査した複数の報告書によると、実際は評価が分かれるという。Cloud Academyの米国時間12月27日付の報告書で明らかになった。

 まず、TIOBE Programming Community Indexによれば、2018年の検索エンジンのリクエスト数でみたRの順位は下降気味だったという。だが、データプロフェッショナル1万6000人を対象に実施したKaggleの調査では、全体で最も人気の高いプログラミング言語はPythonであるものの、統計およびデータサイエンティストは他のどの職務よりも業務でRを使用している割合が高いことが分かった。データサイエンティストの87%はPythonを、71%はRを業務で使用していると回答していると、同報告書に記
以下ソース
https://japan.techrepublic.com/article/35131060.htm



23: 2019/01/12(土) 20:13:22.05

>>1
Julia は?


2: 2019/01/12(土) 18:38:58.81

データサイエンティストに求められるのは言語ではない
数字を読む能力なのに


14: 2019/01/12(土) 19:32:26.78

>>2
数字を読むのはAIの役目


69: 2019/01/13(日) 04:03:21.73

>>14
なんか、いろいろとバカが滲み出ている発言だなw


78: 2019/01/13(日) 09:23:52.78

>>69
おまえが無知なだけですよ

数字を読んで傾向を割り出すのがAIの仕事

傾向からパタン認識して未来予測するのがデータサイエンス


87: 2019/01/13(日) 13:10:05.47

>>78
逆だろ

数字を読んで傾向を割り出すのはデータマイニングで、AIじゃない

また、データマイニングも、数字をそのまま入力して良い結果が得られるケースは殆ど無く、人間が数字を読んで前加工して、適切なマイニングツールを選ばなきゃならない
それがデータサイエンティスト

データサイエンティストが組んだ前処理とマイニングツールの組み合わせを使って、新たなデータから傾向を見出して、何かのアクションを自動化するのがAI


126: 2019/01/14(月) 14:12:44.47

>>2
それでいうと、現場を知らないと問題意識が芽生えないので、データの関係だけを明らかにはできるかもしれないが、意味のある分析はできない


4: 2019/01/12(土) 18:55:36.17

 
Rは統計データを扱うのに特化した言語であって
システムを組むには不向きなだけだろ


5: 2019/01/12(土) 18:55:39.34

データをnumpyとかpandaとかに整形するのがめんどいんじゃ糞が


6: 2019/01/12(土) 18:57:58.43

Python 遅いけど、、

使いやすいし、便利なライブラリも多い。


104: 2019/01/13(日) 18:21:48.70

>>6
スピードかかる所は
Cのプラグイン化でええだろ


110: 2019/01/14(月) 02:56:00.78

>>6
R は Pythonに輪をかけて遅い。
Python自体はスクリプト言語だからメチャ速くはないけどCで書かれたnumpyやpandasをうまく活用してPythonはそういった外部ライブラリを繋ぐ糊だと考えればいい。


111: 2019/01/14(月) 09:11:53.57

>>110
思うんだけど、matlabとかR使ってる研究者って
競争に負けないように、GPGPUとか3Dハードウェアアクセラレーションを使える
高度なソフトを勉強しようとは思わないのかね?


112: 2019/01/14(月) 09:45:33.15

>>111
matlabとかRってGPU使えないの?


113: 2019/01/14(月) 10:03:40.12

>>112
調べたらAI用途でならあった
https://www.mathworks.com/solutions/gpu-computing.html
これならどの言語、どのアプリ使っても対して違いはないね


117: 2019/01/14(月) 10:56:34.57

>>111
CPUとGPGPUで計算結果に相違が出るなんてしょっちゅうだし
GPGPU上で使えるライブラリ激減するし
使えるメモリ明らかに減るしで
使い所がかなり限定されるものに大金出すアホはそうそういないw


125: 2019/01/14(月) 13:58:50.84

>>117
CPUとGPUの計算結果が異なることが問題になるって、
アルゴリズムがピーキーすぎんか?


128: 2019/01/14(月) 16:27:07.46

>>117
アルゴリズムじゃなくてハードウェアの構成の違い
CPUとGPGPUとじゃ内部の加減乗除の計算順も
変わってくるから下数桁の違いなんてザラ

そんなもんだと割り切れる分野なら良いけど
カオス現象みたいに違いが深刻になる分野じゃ使えない


118: 2019/01/14(月) 11:04:30.82

>>110
別に研究者全員がごりごりの計算屋じゃないんだって。
MATLABだと10秒かかる計算をCだったら1秒以内だからって,
わざわざコンパイラ通すプログラム作るより楽でしょ?
俺の場合はMATLABで10時間以内で計算できるんだったら,MATLAB使うかな。
プログラムできてしまえば,一晩置いとけばいいからね。
CはMATLABじゃ数日かかってしまうようなものオンリーだな。
俺はプログラマーとしては素人同然なので,配列の面倒くさいポインターとかを考えるの嫌なんだよ。


120: 2019/01/14(月) 11:11:09.30

>>118
時代はGPUからFPGAに代わってきているし、Cみたいな高級言語覚えてもあんま意味ないよね
そう思ったとき、色々手早く動作テストするのには、適当に使える楽なPythonがいいという話になる


7: 2019/01/12(土) 19:05:32.54

基本をC、ライブラリは都合のいいもの。今はたしかにPython。
Rは統計というかデータベース用だとおもう。


10: 2019/01/12(土) 19:15:41.63

最近は機械学習系のライブラリがみんなPythonだからな
イヤでも使うしかない


11: 2019/01/12(土) 19:24:51.91

>>10
>最近は機械学習系のライブラリ
プログラマー全体の何パーセントが,「機械学習系のライブラリ」を
使用するのか? これがPythonの人気の主な理由とは思えない!


16: 2019/01/12(土) 19:41:12.41

>>11
この記事はデータサイエンティスト限定の話だし
もちろん他の用途では事情は変わってくるだろうね
機械学習いらんってことなら、別の言語でも全然構わないだろう

ちなみにPythonでプログラム書いてWebサイトを立ち上げようとすると
素のApacheですぐに動かないから微妙に面倒くさい
Djangoとかのフレームワークを使う手もあるけど、
それぞれにクセがあって多少手間がかかる

最後は何を作りたいかで決まるでしょう


40: 2019/01/12(土) 23:05:12.35

>>11
主な理由の1つだな
もう1つは非常にとっつきやすくて、昔でいうperl的なニーズなんだと思う


45: 2019/01/12(土) 23:59:40.74

>>11
何パーセントとか関係ないでしょ。
CにしろJavaにしろPythonにしろ言語作ったのは数人~数十人とか。
それを何百万人ものプログラマが使ってる。

人数の多寡ではなく影響力。
影響力ある人が数人でも始めればそれが波及する。

アメリカで機械学習をやってる人たちってのは影響を与える側。
その人たちがPythonを使い出せば、新しいアルゴリズムの
ライブラリや機械学習の教科書のコードがPythonで書かれるようになる。
やがて他国の研究者もそのライブラリを使うためにPythonに乗り換える。

日本のITエンジニアが何言語使おうと世界に影響は殆どないけどね。


15: 2019/01/12(土) 19:34:39.49

その辺の言語は文法が少し違うだけで
どれも同じだよ


17: 2019/01/12(土) 19:44:53.13

numbaじゃなくてpsyco復活してほしい
cythonがまぁまぁ使いやすい


18: 2019/01/12(土) 19:46:01.58

Rを使うのは昔の文系統計屋だけ
データサイエンティストはRなんて使わないわな


80: 2019/01/13(日) 10:18:03.32

>>18
実務経験ないんだろうけど。
海外じゃ理系だの文系だのといった馬鹿な区分けはないんだよ。

PythonもだけどR使ったことない学生なんて
勉強してないって自分から言ってるようなもんだし
外資じゃ絶対雇わないよ。


19: 2019/01/12(土) 19:55:26.28

assembler, bash, basic, c, cobol, java, perl, php, python, PL/M

人生最後の言語はrustだと思いたい


20: 2019/01/12(土) 19:59:05.68

データ解析といえばSASじゃないの?時代は変わったな


21: 2019/01/12(土) 20:07:25.47

データ分析基盤を作るのは他に丸投げ?


22: 2019/01/12(土) 20:11:46.83

でもモジュール作る人はc/c++じゃないの?
データサイエンティストと言う人らはフロントだけを作るの?


30: 2019/01/12(土) 20:39:23.01

>>22
機械学習とかはサーバサイドだろ。
サーバでPythonが動き、C/C++で書かれてコンパイルされたライブラリーを呼び出す。
サーバサイドのフレームワークはPHP/Ruby/Pythonあたり。
フロントエンドではJavascript/HTML/CSSが動き、
C#とかJava書かれたソフトも動いてるかもしれん。

今時1つの言語じゃ大したことできねーぞ。


35: 2019/01/12(土) 21:04:11.03

>>30
全体でみればそうかもしれないが。
データサイエンティストとして要求されるのはPythonにほぼ限定されるかと。
機械学習とかAIはPythonでやって結果は別人、グループへ。


25: 2019/01/12(土) 20:17:56.46

これはおかしい
Pythonが言語として優れてるわけでなく、グーグルとか多数企業が
数値計算、AI関連のモジュールもあとから追加したからだろ。
Javascriptでもよかった


85: 2019/01/13(日) 12:57:35.18

>>25
言語としても優れてるよ

実装したいアルゴリズムをコンパクトに記述できる
型定義や型変換など、アルゴリズムとは関係ない余計な記述が殆どいらない
インデントで構造が明確で、閉じカッコの様な余計な行が不要

pythonだと、人間はアルゴリズムに集中できる
他の言語ではコンパイラやインタープリターを支援する為に、どれだけ余計な記述を強いられているかがわかる
コードが読みやすいので、仕様書は要らず、数カ月前に書いたコードでも動作を思い出せ、改造が楽

職業プログラマーではない、サイエンティストにとって、最適な言語だ


86: 2019/01/13(日) 13:07:38.53

>>85
そうかー,今MATLABで計算しているので,できるだけFORループを使わないように行列演算だけでなんとかならないかと苦戦してるんだけど,それもなくなるのか。
まあ,MATLABは関数の型宣言が全くいらず,いきなり行列を代入することができるのがむちゃくちゃ楽なんだけど。
でもアルゴリズムに集中できるというのはいいね。ちょっとインストールしてみようかな。


88: 2019/01/13(日) 13:26:16.43

>>86
for loop使わずに行列計算したほうが早いのはpythonも同じ。
裏でどういう処理してるか考えれば分かると思うが。

pythonのnumpyっていう実質的な標準ライブラリを入れると、
MatlabやRと同じ行列演算ができるようになる。

matlab、R、python一通り使ってきたけど、
計算するだけならmatlabが一番楽だね。
環境が製品として閉じてるから。
pythonはプログラミングより環境構築が難しい。


27: 2019/01/12(土) 20:27:33.19

普段業務でR言語を利用するなんて日本なわけないと思ったらやっぱり日本じゃなかった


28: 2019/01/12(土) 20:33:18.62

>>27
別に日本でも使うだろ。
研究者やデータサイエンティストとかなら。
ITドカタだけが仕事でプログラミングしてるわけじゃねーんだぞ


33: 2019/01/12(土) 20:51:34.47

Rかじった程度の統計の人やプログラム未経験だけどとにかくクエリは自力でかけますみたいな人たちにとっては取っつきやすいみたいですね
純粋なプログラマーにはクソ言語にしか見えない


34: 2019/01/12(土) 20:55:54.96

純粋なプログラマーって言い方が謎だが、
プログラミングそのものでお金をもらってるのと、
何か成果を出すためにプログラミングをツールとして
使ってる人ではそりゃ見方が違うだろ。


37: 2019/01/12(土) 21:44:28.59

Python簡単で便利だしな
情報工学の基礎を学んでない人でも扱える


42: 2019/01/12(土) 23:21:51.98

お前らプログラムやってるのか知らんがデータサイエンティストはお前らと全く違う職種だから
言語ってスレタイで自分の領域だと勘違いして入るのはクルマの免許しかないやつがバイクスレに入るようなもん


46: 2019/01/13(日) 00:02:49.29

>>42
ワロタ

確かに、
「車のほうが値段高いから俺のほうが偉い」
とか無意識に思ってそう。


47: 2019/01/13(日) 00:07:23.78

>>42
データサイエンティストと組んで仕事してるけど
今時は理論だけじゃ仕事にならんよ
システムに組み込める形にできないと


44: 2019/01/12(土) 23:50:23.56

マジレスすると一番必要なのはSQLだろ笑笑


48: 2019/01/13(日) 00:12:37.48

python は perl5 の次のステップアップで覚えた言語
データ処理は出力がある程度まとまっている Rに任せてる


52: 2019/01/13(日) 00:42:52.73

なんで電子マネーみたいに無駄にポコポコ新言語作るんだ?


53: 2019/01/13(日) 00:53:09.41

>>52
AIやらディープラーニングやら目的が細分化して、その用途に合わせるためだったり、
プログラミングのパラダイムが変遷して、その変化に合わせたりとか、
プラットフォームの多様化して、固有のプラットフォームに特化したりとかで様々。

ただpythonは結構古い。もうすぐ30年になる。


54: 2019/01/13(日) 00:59:43.61

Rってソフトウエアってイメージあったわ


57: 2019/01/13(日) 01:02:38.48

>>54
Mathematicaに近いイメージか


55: 2019/01/13(日) 01:00:22.03

いやだからさ、アセンブラレベルで最適化したCモジュールやフレームワークを提供する側の人間かと思ったら
そのへんのプログラマ同様、pipかなんかで引っ張ってきたのをしょーもないプログラミング能力でAPIをぽちぽちだろ
これでサイエンティストとか名乗られても、ただのプログラマじゃん


58: 2019/01/13(日) 01:06:10.32

>>55
一行目がプログラマで、サイエンティストはエンドユーザーかと


61: 2019/01/13(日) 01:33:54.48

>>55
> アセンブラレベルで最適化したCモジュールやフレームワークを提供する
これはエンジニアの仕事。サイエンティストの仕事では無い。

> pipかなんかで引っ張ってきたのをしょーもないプログラミング能力でAPIをぽちぽちだろ
サイエンティストはプログラミング能力で評価されるわけでは無い。
データサイエンティストならデータから有用な結果を引き出せるかどうかが評価のポイントだろ。


56: 2019/01/13(日) 01:02:03.59

うちはブルジュアだからSAS


59: 2019/01/13(日) 01:28:48.85

python自体は遅いけどnumpyのようなライブラリは早いじゃん


60: 2019/01/13(日) 01:29:31.94

データサイエンティスト≒統計家じゃね


77: 2019/01/13(日) 09:19:31.15

>>60
統計ではなくパターン化がデータサイエンティストの仕事

将来こうなるorこうするだろう、
っていうのが、データサイエンティストには読める


62: 2019/01/13(日) 01:45:45.24

ややこしいのは、新しい機械学習のアルゴリズムを作る
例えばヒントンのような人はコンピュータサイエンティストの
くくりの方が適切(多分)ってこと。

そういう意味でデータサイエンティストよりデータアナリストとか
統計技術者という言い方の方が適切なのかもしれない。


63: 2019/01/13(日) 02:02:49.47

データサイエンティストとデータアナリストは別な
データアナリストはExcelでグラフ作ってプレゼンしたりする奴ら
データサイエンティストはRやPythonで予測モデルを作る奴ら


64: 2019/01/13(日) 02:17:11.65

データサイエンティストはエクセルも作るし、プレゼンもするぞ。モデルも作る

てか、エクセル作るためにモデル必要だし
エクセル作るだけの仕事なんてまずないだろ。それじゃただのコンサルじゃないの?

クライアントに寄り添ってデータ分析するのがデータサイエンティスト
彼らの実装をよりエレガントにエフェクティブにするのが機械学習エンジニア
その実装や必要なデータ整備を分散化、自動化するのがデータ基盤エンジニア

実際ははっきりとは分かれず
兼務してることが大半だと思う
特にデータサイエンティストと機械学習エンジニア


65: 2019/01/13(日) 02:29:01.95

 
データアナリスト = データを分析して傾向を割り出す
データサイエンティスト = データを分析して予測を立てる
機械学習エンジニア = 鑑別器の正解率を高めるように特徴量を際立たせる

こんな感じか?


66: 2019/01/13(日) 02:34:11.89

ヘボい
こんなんで年収がいいんだ、おれもデーターサイエンティスト()目指そうかな


68: 2019/01/13(日) 03:31:04.34

>>66
学位あって英語できりゃ年収2000万ねらえるよ。頑張って。


73: 2019/01/13(日) 05:43:02.74

データサイエンティスト?
また胡散臭げなコンサルがでてきたんか


74: 2019/01/13(日) 08:25:50.71

ライブラリ頼みでPython使ってるだけでデータサイエンティストとかw


79: 2019/01/13(日) 09:28:44.13

言語、言語言ってる連中は間違いなく素人。
プロのこだわりはドメイン設計とメッセージングとデザインパターン
これに尽きる。


81: 2019/01/13(日) 11:29:55.10

単なる分析屋なの?
新しいアルゴリズム開発するとかじゃないのか。


82: 2019/01/13(日) 12:01:04.24

numpy, scipy, scikit-learn
この3つの影響が大きいと思う


83: 2019/01/13(日) 12:40:47.79

今メインはMatlab+Statistical Toolboxで計算してて,たまにR使うくらいなんだけど,
Pythonに置き換えるってのはなんかメリットある?
やってるのはMCMCとかの1000行くらいから10000行くらいの計算。
Matlab使いやすいからずっと使ってるんだけど,最近Pythonをよく聞くのでちょっと気になってる。


89: 2019/01/13(日) 13:31:25.77

>>83
別にMatlabで何の問題なくできてるなら、問題はない。

Pythonが好まれてるのはオープンだから。
Matlabは商用ソフトなんで誰でも使えるわけじゃない。
あなたが書いたコードを共有するときに問題になる。

新しいアルゴリズムがデファクトで、
pythonで実装されるようになりつつあるから、
次第にpythonを使わざるをえなくなる機会は増えていく


94: 2019/01/13(日) 15:39:11.20

>>89
計算するだけならmatlabやRで良い事に同意

その計算モジュールをWebAPIやMQ等で他のモジュールと連携させたり、MongoDBやRedis等のDBを読み書きしたりと、システム化してAIにするには、pythonの方が便利

要は、バッチでデータ処理してた時代から、クラウドでAIする時代に変わり、pythonがトップになったんだと思う


90: 2019/01/13(日) 13:57:47.62

全部VBでできるだろ
VB.NETを使えっての
てか、データサイエンティストって何なんだよ


92: 2019/01/13(日) 15:03:08.00

dplyrが出てからpythonでなくてもRは前処理楽になったよ。
Rとpython両方できてないと他人のコード読めないので、片方だけという
人は少ない


95: 2019/01/13(日) 15:46:50.50

ExcelとRで回帰分析しかできないようなのはなんちゃってデータサイエンティスト。
それでもデータで経営層を動かせるからプログラマーより評価されるだけ。


97: 2019/01/13(日) 16:46:48.10

>>95
違う。ExcelとRで経営層を動かせるほどの結果が出せる奴がすごい。
あくまでも統計的手法は道具であり,よい道具を使ったらよい結果が出るわけではない。
すごいデータサイエンティストは,道具がすごいのではなく,データを見抜く力がすごい。
思ってもみなかったものに,ものすごく単純な統計的手法を適用して,びっくりする結果を出す。
これがほんとのデータサイエンティスト。


96: 2019/01/13(日) 16:45:22.54

なんだよ
回帰分析って
そんなの知らねーよ


119: 2019/01/14(月) 11:09:59.92

データサイエンスに求められるレベルが違うんだよなあ
pythonができる人がただ、データーを半分にして重回帰しただけのものを機械学習って言われてもただ、条件分岐を数学的にやってるだけ
Rは統計ができる人が使うからデータサイエンスとしてのレベルが違う


121: 2019/01/14(月) 11:14:59.42

R使う研究者とか、Python使う研究者とかそういうのはいないよ。
俺は研究者だけど、R, MATLAB, Python, C/C++, Java この辺は一通りできる。
周りもだいたいそう。
その時その時で使うライブラリによって使い分けてるだけ。


130: 2019/01/14(月) 16:50:56.68

日本語で会話しろよ。
さっぱりわからんぞ…