練習問題に飛び込む
質問1
データサイエンティストは、発生頻度は低いが、ユーザーに大量のダウンタイムをもたらすマシン障害を予測するモデルを構築しました。すぐに故障すると予想されない機械の予防点検を行うと、会社の人件費が増加します。また、定期的なメンテナンスセッションを追加すると、顧客満足度スコアが低下し、多くの顧客が新しいバージョンのマシンを購入したり、保証契約を更新したりすることを思いとどまらせます。このシナリオの主な目的は次のうちどれですか?
ある。 人件費
B. ダウンタイム
C. クライアント維持
D. サービス品質
質問 2
データサイエンティストは連続変数の分布を調べていますが、データのヒストグラムから結論を導き出すことができません。データサイエンティストは、より視覚的な概要を得るために、次のうちどれを行う必要がありますか?
ある。 ビンの数を増やします。
B. 値の範囲を小さくします。
C. 追加データを収集します。
D. ハイコントラストのカラーリングを追加します。
質問3
データ不均衡に対処するための最良の方法は次のうちどれですか?
ある。 PCAの
B. 強打
C. 二項ロジスティック回帰
D. DBSCANの
質問 4
データサイエンティストは、住宅の広さ(平方フィート)、築年数、タイプ(アパート、一戸建て住宅、ボートなど)に基づいて、消費者の電力使用量を予測するモデルを構築しています。外れ値を処理する最も適切な方法は次のうちどれですか?
ある。 非線形モデルの選択
B. 外れ値の削除
C. データ・セットの正規化
D. ハイパーパラメータのチューニングの実行
質問 5
データサイエンティストは、顧客離れを予測しようとしています。文献レビューを実施した後、データサイエンティストは、同様のコンテキストで成功したいくつかの潜在的なモデルを特定します。イテレーション用のモデル設計を選択する際の次のステップは、次のうち最も適切であるものはどれですか?
ある。 文献レビューで特定されたすべてのモデルを実装し、テストセットで最も精度の高いモデルを選択します。
B. 文献レビューから、最も最新で効果的なモデルである可能性が高いため、最近公開されたモデルを選択してください。
C. ベースラインモデルを開発し、解釈可能性の要件を考慮して、より複雑なモデルを繰り返し実装して比較します。
D. 文献レビューで最も引用数が多いモデルは、最も信頼性が高く受け入れられているため、選択してください。
質問 6
データ サイエンス チームには、営業担当者が顧客と行ったエンゲージメントで構成されるデータセットがあります。各エンゲージメントには、営業担当者が実行した一連のアクションと、顧客が購入したかどうかが含まれます。次のうち、さまざまな一連のアクションと顧客の購買行動の間の相関関係を見つける最良の方法はどれですか?
ある。 KNNの
B. クラスター分析
C. 機能の重要度チャート
D. 関連付けルール
質問 7
データサイエンティストが住宅価格を分析し、次の分布を観察しています。
| 価格帯 | 住宅 数 |
| 100,000–200,000 | 50 |
| 200,001〜3200,000 | 30 |
| 300,001〜4200,000 | 15 |
| 400,001〜5200,000 | 3 |
| 500,001–600,000 | 1 |
| 600,001〜700,000 | 1 |
データサイエンティストは、データをより正規分布させるために、次の手法のうちどれを適用する必要がありますか?
ある。 ボックス-コックス変換
B. 主成分分析
C. 最小-最大スケーリング
D. ワンホットエンコーディング
質問 8
データサイエンティストは、顧客離れを予測する ML プロジェクトを完了し、将来使用するためにプロセスを文書化したいと考えています。データサイエンティストがドキュメントに含める必要があるのは次のうちどれですか?
ある。 モデルで使用される顧客の購入履歴
B. テストセットでのモデルのパフォーマンスメトリック
C. モデル実装のソースコード
D. モデルで使用される各フィーチャの説明
アンサーキー
質問1: C (クライアント維持)
質問 8: D (モデルで使用される各特徴の説明)